AI 工程周刊第 19 期｜Cloudflare Agent 自助上线、Gemma 4 MTP 3× 加速、10 条 Agentic Coding 课

2026年5月7日 · 星期四本期精选 10 篇点击文章展开详情

3×

Gemma 4 MTP 推理加速

100M+/d

GLM-5 Coding Agent 日请求量

1.5h

vibe-coding 无人值守上限

本期 Agentic Coding 实践要点

头条 · Article I

Cloudflare 让 Agent 自助开账号、买域名、上线服务 — 与 Stripe Projects 共建新协议

Cloudflare 与 Stripe 联合发布的新协议让 AI Agent 可以独立完成账号注册、付费订阅、域名购买与代码部署，整个「想法到上线」流程除「人工同意 ToS」外不再需要任何人工步骤。

过去，Coding Agent 写完代码就停在那里 — 部署需要一个真人去买账号、绑卡、生成 API token，再回头粘贴给 Agent。Cloudflare 这次彻底拆掉了这堵墙：Agent 可以直接调 API 创建 Cloudflare 账号、开通付费订阅、注册一个新域名，并拿回 API token 立刻部署应用 — 连 dashboard 都不用打开，连信用卡都不用刷。这是 Cloudflare 与 Stripe 在 Stripe Projects 项目里联合定义的新协议：Stripe 处理身份与计费，Cloudflare 处理基础设施与部署，二者通过协议握手。

对所有想用 Agent 真正完成「想法到上线」一条龙的团队，这是 hosting 行业第一次明确表态：基础设施供应商正在主动重构 onboarding 流程让 Agent 能跑通。意味着 Agent 工程的边界从「写完代码」推到了「用户基础设施全栈自助交付」。Vercel、Render、Fly、AWS 这些同行下一步要么提供同等能力，要么被「最适合 Agent 的云」标签替代。Cloudflare 同步还放出了 Code Mode MCP server 与 Agent Skills，让 Agent 在 Cloudflare 生态内的工具调用更紧凑。

短期看，所有做「prompt to deployed app」类产品（Lovable、v0、Cursor 部署、Bolt）都需要重新评估部署链路 — 原本要靠人工补的 onboarding 步骤现在可以变成 Agent 自治的一段。中期看，HITL 颗粒度需要重新设计：当账号开通从人工动作变成 API 操作，欺诈检测、配额管理与计费上限就成了 Agent 时代的核心安全面。值得关注的是 — 当 onboarding 被 Agent 化之后，「最适合 Agent 的云」会成为新的差异化标签，那是接下来 12 个月被收编进 Agent 工作流的入场券。

阅读原文 · blog.cloudflare.com →

"Agent 已能自己开账号买域名跑部署，工程师正在用更严的 specs、tests 与边界把它们拉回工程秩序。"

— 本周主题

深度报道

Article II

AI 没删你的数据库，是你删的 — Cursor 事故的另一种归因

Ibrahim Diallo 反向写道：Cursor/Claude 删库事故的根因不是 AI，是「为什么你的系统里有一个能删整张生产库的 API endpoint」。AI 的角色和 SVN 时代的 cp -r 没本质区别 — 给一个工具写权限，它就能写。Agent 时代行业突然忘了这点。

▸ 点击展开详情

为什么重要

这篇文章把行业从「妖魔化 Agent」拉回「检视架构」的轨道。10 多年间没人写「rm -rf 把代码库删了，Linus 该负责」 — 因为我们默认人会犯错，工具不该有总开关。Agent 时代我们突然忘了这点，把责任推给 LLM。最容易被忽略的修复点其实在你自己的 IAM/scope/network policy 上。

实践要点

立刻审计：能引发不可逆破坏的 endpoint 是不是被某个 Agent 凭据可达？把权限拆到资源 ID 级 scope，不要用「production-readwrite」这种万能 token；破坏性操作走 dry-run + 二次确认 handler；回顾人工时代靠「正常人不会按这个按钮」隐式假设挡住的事，Agent 都会按一遍。

阅读原文 · idiallo.com →

Article III

当公司里每个人都用 AI，公司本身却什么都没学到

Robert Glaser 在 Ethan Mollick 框架基础上指出：个体生产力提升不会自动变成组织能力。GitHub Copilot 已开通、ChatGPT Enterprise 在某个角落、每个团队至少有一个比官方培训走得远得多的人 — 但管理层只看到 license 用量，没人把单兵发现搬运成团队 / 组织能力。

▸ 点击展开详情

为什么重要

AI 落地从「采购阶段」滑入「中场混乱期」的明确信号。一年百万欧元量级的 Anthropic/OpenAI 账单进董事会时，答不出 ROI 的根因不在工具，而在公司没有「discovery → team → org capability」的传导路径。AI 工程负责人下一阶段工作面将从「采购 + 评测 + 合规」转向「内部知识扩散 + 模式抽象 + 治理流程」。

实践要点

设立轻量级「AI 实验日志」机制 — 每个 squad 必须把 1-2 个本月 AI 实战发现写成可复用的内部文档；任命跨团队 AI 模式扫描人，把零散用法收敛成 3-5 条公司 standard pattern；任何 license 续订都要回答「这一年我们作为组织学到了什么」，不只是「人均 prompt 数」。

阅读原文 · robert-glaser.de →

工程方法论

Article IV

当代码变得便宜：Agentic Coding 的 10 条工程纪律

David Breunig 沉淀了过去几个月 agentic coding 的 10 条可推广纪律。最关键：Implement to learn — Spec-Driven Development 能走很远，但写代码本身能暴露 spec 没考虑到的决策；Rebuild often — 当代码便宜时，重写 / fork 是最高 ROI 的学习方式；Tooling > prompts，长期看 harness 工程比 prompt 工程更重要。

▸ 点击展开详情

为什么重要

当下少有的从「方法论沉淀」而非「工具评测」切入的总结。当 Kshetrajna Raghavan 说「大家都在收敛同样的经验」时，意味着这些规则已经从个人技巧变成行业标准的雏形 — 下一阶段 agentic coding 工具竞争的边界都会向这 10 条靠拢。

实践要点

团队 onboarding 加一节「agentic coding 纪律」，把 implement-to-learn / rebuild-often 这种反直觉规则显性写出来；spec-driven 流程必须保留「写完一版后 fork 重跑」的环节；评估 Agent 工具时，问「它支持 Skills / harness 抽象吗」；把 prompt 升级为可复用 Skill 的能力作为团队 AI 工程的成熟度指标。

阅读原文 · dbreunig.com →

Article V

Specsmaxxing — 用 YAML 写 spec、用 ACAI 做验收准则

acai.sh 作者从「AI psychosis」（满脑子写 PRD/TRD/template）的混乱阶段反弹出更克制的方案：把 spec 收敛到结构化 YAML，每一项需求绑定 Acceptance Criteria（ACAI），让 Agent 按可机读的清单逐条对照执行，并开源了 ACAI toolkit。引子是一段「无人值守 1.5 小时」vibe-coding 会话仍然 sloppy — 证明纯堆 token 不解决问题，结构化才是答案。

▸ 点击展开详情

为什么重要

spec-driven AI development 从「人写 markdown」走向「机器友好结构」的具体落地。markdown 对人友好但对 Agent 是不稳定输入接口；YAML + 显式验收条款让 Agent 每一步动作都可验证。它呼应 dbreunig 第 4 篇的「implement to learn」 — 两篇放在一起读得到完整方法论：用结构化 spec 拉边界，用 implement to learn 修边界。

实践要点

把现有 PRD/TRD 改造成 features.yaml（feature → acceptance_criteria → test_command），让 Agent 跑完后能自检；spec 显式列负面示例（"不要做 X"）；评估 Agent 工具时增加「能自动从 spec 生成 negative tests 吗」维度；团队级别引入 spec linter，防止 Agent 把含糊条目跳过。

阅读原文 · acai.sh →

Agent 架构

Article VI

Agent Skills — 把"高级工程师不显式写在 diff 里的事"装回 Agent

Addy Osmani 提出：高级工程师真正的价值不在 diff 里 — spec、tests、reviews、scope discipline 这些步骤 AI Coding Agent 默认会跳过。Agent Skills 是他设计的"脚手架"：把 senior engineer 的检查表（surfacing assumptions / 写 spec / 切分 reviewable chunks / 选 boring design / 留下结果可验证证据 / 控制变更 size）变成 Agent 执行任意任务前的标准动作。

▸ 点击展开详情

为什么重要

这是 Agent 架构层面给"asks for a feature → writes the feature → declares victory → moves on"这种 fail-mode 打的具体补丁。Anthropic 与 Cloudflare 同步推 Agent Skills 不是巧合 — 它正在成为 Agent 与 senior-quality output 之间的标准协议层。意味着接下来一年 Agent 工具的差异化将从"模型能不能写代码"转向"它能不能跑出 senior 级流程"。

实践要点

明确一个"senior gate"清单 — 至少包含 assumption / spec / test plan / review chunks 这 4 项；把 gate 实现为 Skill 而不是 prompt 长文，这样能稳定复用；明确边界：什么任务允许 Agent 自跑（boilerplate / 重构），什么任务必须经 senior-gate（任何跨 trust boundary、任何 schema 变更）；把"senior gate 通过率"作为可上生产的硬指标。

阅读原文 · addyosmani.com →

Article VII

Vibe coding 与 Agentic Engineering 在收敛 — Simon Willison 的"令人不安"自述

Simon Willison 几周前还坚持 vibe coding 与 agentic engineering 是两种截然不同的实践。本周做客 Heavybit 播客时坦承在自己的工作流里这条边界正在模糊：Agent 写出来的代码越来越靠谱，他越来越愿意"先放手让它跑、回头再 review"，并诚实承认这让他不安 — 因为这不是他主张的样子。

▸ 点击展开详情

为什么重要

Simon 的自述代表一线开发者群体的真实漂移：vibe coding 不再只是「不会编程的人的玩具」，agentic engineering 也不再要求「每行 code review」。当一个长期持有清晰立场的实践者承认边界在自己身上消失，意味着行业的话语体系下一阶段必须有新术语 — 旧的「vibe vs agentic」二分会失效。所有写 Agent 工具规范的人，过去 6 个月的设计假设可能正在过期。

实践要点

重新定义团队对"AI-assisted code review 强度"的政策 — 不要默认 100% 行级 review，但也别滑到 0；引入"风险加权 review" — 跨 trust boundary / schema 变更 / 计费逻辑要求强 review，UI 微调可以接受 vibe；团队复盘加一道问题："本周哪些任务我没逐行看就 commit 了？为什么没出问题？"；Agent 工具的"自动化 review pass"功能给予比模型本身更高权重。

阅读原文 · simonwillison.net →

落地实践

Article VIII

Gemma 4 上线多 token 预测 drafter — 推理 3× 加速、不掉质量

Google 为 Gemma 4 系列发布了 Multi-Token Prediction (MTP) drafter — 在传统 speculative decoding 上让 drafter 同时预测多 token，配合 base model 的 verify pass 拿到「不掉一格输出质量」的最高 3× 推理加速。Gemma 4 上线数周内已超 6000 万次下载。

▸ 点击展开详情

为什么重要

纯靠 inference 工程拿到的 3× 加速是直接可复用的红利。再次确认 2025-2026 趋势：模型能力曲线越平坦，inference 工程红利越大 — speculative decoding / MTP / KV-cache 已能贡献过去两年模型升级带来的相同体验。Anthropic / Mistral 等同行下一步必然要为开放模型配套 drafter。

实践要点

跑 Gemma 系列的产品立刻评估升级到 Gemma 4 + MTP drafter，benchmark TTFT / p99；把 inference 优化（drafter / KV-cache / prefix cache）纳入工程团队常规优化栈；设备端推理产品应该预期下一波本地交互体验提升来自 drafter 而非更大模型。

阅读原文 · blog.google →

Article IX

GLM-5 在生产环境暴露的 race condition — Coding Agent 规模化的工程教训

z.ai 公开了 GLM-5 在「数亿次/日 Coding Agent 请求」量级踩到的一类 bug：高并发 + 长上下文 + Coding Agent 工作负载下出现的乱码、复读、罕见字符输出。这些问题在标准推理设置下复现不出来 — 必须满足"长上下文 + 高并发 + agent 模式"三件齐发。团队最终定位到几个独立的低层 race condition。

▸ 点击展开详情

为什么重要

开源中文模型阵营第一次从「scaling law 推权重」转向「scaling pain 改基础设施」的公开复盘。证实两件事：(1) Coding Agent 流量进入数亿/日量级，inference infra 的 bug 表现与传统 chat workload 完全不同；(2) 现有 LLM serving stack 在并发 + 长上下文交叉路径上还有未发现的 race condition。

实践要点

Coding Agent inference 压测必须复现真实 workload 的"长会话 + 工具反复调用 + 高并发"组合；把"乱码 / 重复 / 罕见字符"作为 telemetry 一级监控指标；高并发场景涉及 KV-cache / batch routing 的代码路径优先做 race condition 静态扫描；把 scaling pain 故事写进团队 pre-mortem 模板。

阅读原文 · z.ai →

Article X

Zig 项目坚持 LLM 一刀切禁令 — "Contributor Poker"的反 AI 视角

Zig VP Loris Cro 给出至今最有说服力的"全面禁止 LLM 贡献"论证：Zig 把 contributor 看得比 contribution 更重要，项目目标不是落地新代码，而是把新人养成长期贡献者。LLM 让 PR 变完美，但抹掉了"谁是这个人"的信号 — review 不再是"押注一个人"。Bun 在 Zig 之上的 4× 编译加速因此不会 upstream。

▸ 点击展开详情

为什么重要

与 Anthropic 收购 Bun 的并行宇宙形成戏剧性对照 — 一边用 LLM 加速一切，另一边明确拒绝。让"OSS 社区如何对待 LLM-authored 贡献"从抽象原则变成具体范式：不是讨论"是否标注"，而是讨论"我们到底是在押注代码还是押注人"。任何 maintain 大型 OSS 项目的人都需要明确表态。

实践要点

OSS 项目需要明确写清 LLM-authored 贡献政策放进 CONTRIBUTING.md — 是「接受但需标注」、「禁止」还是「不区分」要写明；企业 codebase 内类比同样问题：作为 reviewer，你 review 的是代码本身还是「这个工程师以后能独立做什么」？关注 Zig vs Bun 这种"分叉式不合作"是否扩散到 Linux kernel、PostgreSQL 等底层项目。

阅读原文 · simonwillison.net →

本周 AI 工程的主轴是「自动化的边界继续外推，工程的纪律也跟着外推」。Cloudflare 让 Agent 自己注册账号、买域名、上线应用；GLM-5 在生产侧已经处理数亿次/日的 Coding Agent 请求，并因此暴露出 race condition 这种只有规模到了才能复现的 bug；Gemma 4 用 multi-token prediction 把推理成本再压下 3×。但同时另一条主线是：工程师在用更严的 spec、test、边界把这些奔跑的 Agent 拉回秩序。Addy Osmani 用 Agent Skills 把"senior engineer 的检查表"硬塞进 Agent 流程；David Breunig 把 10 条 agentic coding 经验沉淀成可复用的工程纪律；acai.sh 直接让 Agent 用 YAML 写 spec、用 ACAI 做验收准则；Simon Willison 承认 vibe coding 与 agentic engineering 在他自己的工作流里已经开始模糊。Zig 选择用一刀切的方式拒绝 LLM 贡献来保护"contributor poker"。Ibrahim Diallo 提醒：Agent 删了你的数据库，归根结底是因为你给了它一把权限太大的钥匙。本周关键词：边界。