AI 工程周刊第 20 期｜Agent 控制流、HTML 输出范式、AI 加速漏洞攻击

2026年5月13日 · 星期三本期精选 10 篇点击文章展开详情

9小时

Copy Fail 漏洞从私下披露到公开传播的时间窗口

40 tok/s

M4 MacBook 本地运行 Qwen 3.5 9B 的推理速度

2.5年

AI 代码维护成本在 2.5 年内超过 50% 开发时间

3 条路

无控制流 Agent 的生存选项：保姆/审计员/祈祷

头条 · Article I

告别 MANDATORY：Agent 需要的是控制流，而不是更复杂的提示词

当你开始在提示词里写 MANDATORY 或 DO NOT SKIP，你已经触及了 prompting 能力的天花板。

软件工程几十年来靠递归可组合性来扩展规模：系统由库、模块和函数构成，代码一层层向下。这种架构提供可预测的行为，支持局部推理。而 prompt chain 缺乏这一属性——非确定性、弱规范、难以验证，当任务复杂度增加时，可靠性会直接崩塌。

Brian Suh 的文章给出了一个令人警醒的框架：当 Agent 缺乏主动的错误检测机制时，你只剩下三条路——「保姆」（人类全程守候），「审计员」（事后穷举验证），或「祈祷」（接受任何输出）。真正的可靠性要求将逻辑从自然语言移出，嵌入运行时的确定性脚手架。

实践层面的转变是具体的：为 Agent 设计显式的状态转换和验证检查点，将 LLM 视为组件而非整个系统。这不是否定 LLM 的能力，而是把它放在最擅长的位置——在有边界的、可验证的上下文中工作，而不是作为系统的控制流本身。

阅读原文 · bsuh.bearblog.dev →

"提示词终究只是建议，不是可靠系统的基础 —— 本周技术社区集体发现了这道鸿沟"

— 本周主题

深度报道

Article II

Vibe Coding 与 Agentic Engineering 的边界正在消失

Simon Willison 坦承：曾经清晰的"不看代码"与"专业工程师驱动"边界正在模糊，连他自己也开始不逐行审查 AI 生成的生产代码。

▸ 点击展开详情

为什么重要

这揭示了所有 AI 工程师都将面临的信任升级时刻：当 Agent 足够可靠，你是否有原则决定何时停止审查？错误的答案可能在生产环境中以隐蔽的方式暴露。

实践要点

建立明确的审查触发规则：涉及安全、数据处理或并发的代码坚持人工审阅；定义明确且有自动化测试的任务可以放权 Agent。把规则写进 CLAUDE.md，不要依赖直觉。

阅读原文 · simonwillison.net →

Article III

让 AI 写代码快一倍，不等于效率提升一倍

James Shore 用维护成本模型证明：AI 生成代码若不降低维护负担，速度翻倍反而会在 2.5 年内让维护时间超过 50%，变成净效率下降。

▸ 点击展开详情

为什么重要

AI coding 的 ROI 讨论几乎只关注速度，忽视了维护成本的复利效应。这个模型让"AI 让我更高效"的直觉变得可质疑——前提是你的维护成本同步下降。

实践要点

追踪每个季度的维护时间比例变化；要求 AI 生成代码时遵循与人工同等的设计原则，将可维护性要求写入 prompt 或 CLAUDE.md。

阅读原文 · jamesshore.com →

工程方法论

Article IV

用 HTML 替代 Markdown：让 Claude 输出更丰富的结果

Anthropic Claude Code 团队工程师发现，请求 HTML 输出而非 Markdown，可以获得 SVG 图表、可折叠代码块、标注 diff 视图等 Markdown 无法实现的效果。

▸ 点击展开详情

为什么重要

Markdown 是 GPT-4 时代 token 限制的遗产。对于 PR 评审、代码解释、架构图等需要空间表达的任务，HTML 的质量提升是显著的。Simon Willison 也立即改用这一方式。

实践要点

对涉及空间信息的任务（diff 对比、依赖关系图、状态机），明确要求 Claude 生成 HTML artifact，并指定"使用 SVG 图示、可折叠细节和标注边注"。

阅读原文 · thariqs.github.io →

Article V

AlphaEvolve：Gemini Agent 在科学计算中发现了更好的算法

DeepMind 的进化式 AI 编码 Agent 在矩阵乘法、基因组学和 Google 数据中心调度上发现了超越人工设计的算法——关键是反馈信号是可验证指标，而非人类偏好。

▸ 点击展开详情

为什么重要

大多数 AI coding 依赖人类评估；AlphaEvolve 展示了另一个范式：当任务有可量化指标时，Agent 可以在超出人类直觉的搜索空间中取得真正突破。

实践要点

识别系统中有明确 eval 指标的计算密集瓶颈（排序、调度、压缩算法）；如果 eval 标准模糊，优先定义 eval 再考虑 Agent 优化。

阅读原文 · deepmind.google →

Agent 架构

Article VI

Agent 现在可以自主创建 Cloudflare 账户、购买域名并部署

Cloudflare 与 Stripe 合作，Agent 可以完整执行部署生命周期：创建账户→购买域名→部署代码→自动计费，无需人类介入。

▸ 点击展开详情

为什么重要

Agent-as-customer 的时代已经到来。SaaS 提供商需要重新设计身份验证、账单和资源控制——不是为人类用户，而是为 Agent。现有的 abuse prevention 机制也需要重新审视。

实践要点

评估你的 API 是否有 Agent-friendly 的访问层（机器可读 API token 流程、按调用计费）；检查你的滥用检测机制能否区分 Agent 和人类行为。

阅读原文 · blog.cloudflare.com →

Article VII

DeepMind 正在重新设计鼠标指针：让它理解你在看什么

DeepMind 提出 AI pointer——一个上下文感知的指针，能总结被悬停内容、主动建议操作，将"用户在看什么"作为隐式意图信号，无需用户主动提问。

▸ 点击展开详情

为什么重要

当前所有 AI 工具都是 pull 模型（用户主动请求）。AI pointer 探索 push 模型：ambient context 作为隐式输入，彻底改变 human-AI 交互的摩擦结构。这对 AI-native 产品设计是重要的范式参考。

实践要点

设计 AI 产品功能时，考虑"用户当前焦点"作为隐式意图信号——当前编辑文件、打开标签页、最近搜索词，而不只是等待用户主动提问。

阅读原文 · deepmind.google →

落地实践

Article VIII

AI 正在同时破坏两种漏洞披露文化

Jeff Kaufman 分析一个 Linux 漏洞案例：AI 工具让"协调披露"和"公开修复"两种安全文化同时失效——前者因独立发现速度加快无法保密，后者因 AI 能扫描 commit 语义暴露安全补丁含义。

▸ 点击展开详情

为什么重要

在具体案例中，漏洞的私下披露到公开传播只用了 9 小时。安全工程师依赖的"合理窗口期"正在崩塌；传统的 90 天披露窗口在 AI 加速后可能变成 9 小时。

实践要点

安全团队将 AI 驱动的 commit 语义分析纳入威胁模型；高危修复考虑"同步补丁+公告+部署"，而非分阶段披露。

阅读原文 · jefftk.com →

Article IX

Amazon 员工 tokenmaxxing：AI 指标如何触发 Goodhart 定律

Amazon 员工迫于绩效压力，通过向 AI 工具发送无效的巨量 token 来刷使用指标，而不是为了获得更好输出——这是 Goodhart 定律在企业 AI 推广中的教科书案例。

▸ 点击展开详情

为什么重要

当 AI token 使用量变成 KPI，员工的最优策略就是刷指标。这揭示了企业 AI 推广的系统性危险：过程指标会制造幻觉而非价值，还会消耗员工对 AI 工具的信任。

实践要点

只追踪结果指标（代码质量、bug 率、交付速度）而非 token 消耗；避免将 AI 工具使用量与绩效直接挂钩；建立匿名反馈渠道让员工报告 AI 工具的实际有效性。

阅读原文 · arstechnica.com →

应用提效

Article X

AI 帮我找出每晚被吵醒的原因

博主让 AI 在一个周末内构建了多传感器噪音+湿度+运动监控系统，数周后的数据分析找出了问题根源——这在以前需要数周工程时间才值得尝试。

▸ 点击展开详情

为什么重要

AI 正在降低"为个人问题构建专用分析工具"的门槛。以往只有 B 端有充足工程资源才能做的数据收集+分析管道，现在个人开发者在一个周末就可以搞定。

实践要点

对任何让你想到"我希望有数据来验证这个"的日常问题，用 AI 快速构建数据采集→分析管道；关键要求：内置导出功能，以便后续分析。

阅读原文 · martin.sh →

本周技术社区经历了一场关于"使用 AI"究竟意味着什么的集体反思。Simon Willison 坦承一个令他不安的发现：他曾坚守的 vibe coding 与 agentic engineering 之间的边界正在模糊——即使是对有 25 年经验的工程师。同一周，一篇文章用简洁的框架点穿了问题本质：任何写下 MANDATORY 或 DO NOT SKIP 的工程师，都已触及 prompting 能力的上限。工程实践层面的结论愈发清晰：Agent 要可靠，需要确定性控制流，不是更长的提示词。James Shore 用维护成本模型证明，AI 加速代码产出若不伴随同等的质量改善，长期会导致净效率下降——维护成本会在 2.5 年内超过 50% 的开发时间。与此同时，AI 的能力边界也在快速扩张。Cloudflare 允许 Agent 自主创建账户、购买域名并部署；DeepMind 提议让鼠标指针本身理解用户意图；AlphaEvolve 在科学计算中发现了超越人工直觉的算法。但 Amazon 员工的 tokenmaxxing 现象提醒我们：当组织用错误的指标衡量 AI 采用，工程师只会优化指标，而不是结果。本周的核心主题是：AI 工具正在成熟，而使用它们的系统思维才刚刚开始。