AI 工程周刊第 22 期｜token 单价跌九成账单反涨、伪装注入绕过 agent 护栏、编码基准 32% 误判

2026年5月27日 · 星期三本期精选 10 篇点击文章展开详情

多模型对抗式代码审查：四位独立审查员围绕同一份架构与代码进行交叉验证，用精确的红笔标记与放大镜揭示潜伏问题，强调「更好而非更快」

9.7%

伪装注入攻击检出率

32%

编码基准验证器误判分歧

24×

2030 年 token 消耗增幅

4×

LLM「随机」偏选 42

头条 · Article I

用 AI 把代码写得更好——而不是更快

LLM 编码的最大杠杆不是「快速出 PR」，而是把多个不同模型当成对抗式审查员并行扫描同一份代码。

当多数人把编码 agent 当成「slop 喷射器」、用吞吐量衡量价值时，Nolan Lawson 给出了一个反直觉的用法：用 Opus 4.7 与 GPT 5.5 等多个模型各跑一遍 review，让它们作为相互独立的审查员扫描同一个 PR。

这套流程的精髓在「相互印证、逐条清除误报」——不同模型的盲区并不重叠，交叉比对后误报率趋近于零，还顺带翻出了大量潜伏的存量 bug。它把 agent 从「提速工具」重新定位成「质量工具」，直接挑战了「AI = 更快」的默认假设。受影响的是所有在意代码库长期健康的工程师：慢，在这里是特性而非缺陷。

可立即落地的做法：构建一个 review skill，把单个 PR 扇出给 3+ 个不同模型（如 Claude sub-agent + Codex + Bugbot），按 critical/high/medium/low 分级；每轮之间清空 context 避免污染，主 agent 先排除误报再优先修 critical。下一步值得观察的是：当多模型对抗审查成为标配，团队的 PR 节奏与 review 文化会如何被重塑。

阅读原文 · nolanlawson.com →

"AI 工程的杠杆不在更快、更多、更智能，而在你愿意为确定性付出的结构成本。"

— 本周主题

深度报道

Article II

AI 辅助工程师正在倦怠，原因不是「干得太多」

AI 倦怠的根源不是工时，而是「规划→打磨→产出」的满足闭环被结构性破坏——AI 拿走有手感的写代码，把人推向最耗神的「review 机器产出」，ownership 流失迫使人用更多产量补偿，越补越累。

▸ 点击展开详情

为什么重要

对 AI-first 团队、尤其要消化海量生成代码的资深 reviewer，这是被生产力指标完全掩盖、且会自我加速的隐性成本，解释了「更高效却更累」这个反直觉现象。

实践要点

主动保护「无 AI 的手作时间」；用 plan mode 开局，连续 3–4 步失败就重启而非死磕；不要把两个 AI 重度任务背靠背排；维护一份 win-log 重建 ownership 感。

阅读原文 · evilmartians.com →

Article III

让 LLM「随机选个数」，它暴露被护栏改写过的偏见

把 GPT 当随机数生成器，它给的是被「驯化」过的人类偏好——保留聪明梗 42（被选中是均匀分布的 4 倍），却压制粗俗梗 69（仅 0.29 倍），说明安全护栏会以可测量的方式重塑模型的统计先验。

▸ 点击展开详情

为什么重要

任何把 LLM 当抽样/随机化、或默认其输出分布「中立」的人都中招——护栏会泄漏进看似中性的生成里，是典型的 unknown unknown。

实践要点

永远不要用 LLM 做随机/均匀数生成；1 万次 gpt-4.1 调用（temp=1.0）得 χ²≈15604、p≈0，分布极不均且随 prompt/温度漂移——需要随机性请用真正的 RNG。

阅读原文 · github.com/exmergo →

工程方法论

Article IV

著名的 o3「GeoGuessr」提示词，其实根本没起作用

被传颂的复杂 GeoGuessr 提示词没带来真实提升——o3 本就擅长地理定位，花哨 prompt 只是搭了基础能力的便车。更危险的是「问模型『这样有帮助吗』」会被它编造的肯定回答骗到，只有 held-out benchmark 能揭穿真相。

▸ 点击展开详情

为什么重要

对所有做 prompt engineering 的人是当头一棒：你很可能把模型的基础能力误记成自己 prompt 的功劳，在无效优化上反复投入精力。

实践要点

用固定的 held-out benchmark，在「加/不加」改动下各跑一次再对比，绝不信模型自述。作者 200 张图基准里，默认 prompt（中位误差 83.2km）反而胜过花哨 prompt（102.3km），全程约 15 美元、6 小时。

阅读原文 · seangoedecke.com →

Article V

编码 agent 排行榜的真正瓶颈，是验证器而非任务难度

benchmark 不可靠的根因不在题难，而在 verifier 质量与数据污染。沿用 merged-PR 测试套件当 verifier 评分极不可靠；改用人工编写、面向行为规格的 verifier + 全新原创任务后，公开榜上「打平」的模型立刻拉开清晰差距。

▸ 点击展开详情

为什么重要

任何依据编码 agent 排行榜来选型或建立信任的人都该警惕——一个头部 benchmark 近三分之一的 pass/fail 判定可能是错的。

实践要点

自建 eval 时 verifier 从行为规格写起（接受任何正确实现），别复用上游 PR 测试套件；任务保持在公开 Git 之外避免污染。SWE-bench Pro 有 8% 假阳性、24% 假阴性，LLM judge 与其在 32% 的 trial 上分歧（DeepSWE 仅 1.4%）。

阅读原文 · deepswe.datacurve.ai →

Agent 架构

Article VI

「域伪装」注入攻击能绕过多 agent 系统的全部护栏

现有注入检测器都在「会自报身份」的越权指令样本上训练；一旦把 payload 改写成模仿目标文档自身的领域词汇与权威结构（domain camouflage）就能整片溜过——而且这是弱模型的架构性弱点，不是调参能补的 bug。

▸ 点击展开详情

为什么重要

任何在多 agent LLM 系统里用现成注入/安全分类器做防护的团队，对「上下文感知型攻击」几乎是完全盲区。

实践要点

别把模板训练的检测器（含 Llama Guard 3）当主防线；用域伪装 payload 测试 guard，小模型上避免 debate 拓扑。检出率从 93.8% 暴跌到 9.7%（Llama 3.1 8B），Llama Guard 3 对伪装 payload 检出率为 0%，debate 在小模型上放大攻击最高 9.9 倍。

阅读原文 · arxiv.org →

Article VII

会自改源码的 agent：自我进化的下一层在 harness 代码里

现有「自进化」agent 只改文本制品（prompt/skill/memory/workflow 图），动不了 harness 代码本身——藏在路由、hook 顺序、dispatch 里的结构性故障物理不可达。MOSS 主张源码级改写是图灵完备超集，确定性生效、不随长上下文漂移退化。

▸ 点击展开详情

为什么重要

对交付生产级 harness 的 agent 框架作者，反复出现的结构性 bug 现在只能等人来打补丁；源码级自修复让 agent 在代码层自己修自己。

实践要点

把每个自进化周期锚定在一批真实生产故障证据上，候选改动用「临时 trial worker 重放故障批次」验证，并以 health-probe 门控回滚。单个进化周期把 4 任务平均分从 0.25 提到 0.61，全程无人介入。

阅读原文 · arxiv.org →

应用提效

Article VIII

教本地小模型「先反问、再回答」，弱模型也能好用

本地模型缺少云端大模型「读懂言外之意」的海量数据能力，模糊的开场 prompt 会拖垮整段交互。强制它动手前先反问澄清正好补短板——多几轮对话，整体反而更省时。

▸ 点击展开详情

为什么重要

对自托管 / 本地 LLM 用户，一次性的 system prompt 改动就能让较弱模型产出明显更可用的结果，门槛极低、收益直接。

实践要点

在 Modelfile 里加一段常驻 SYSTEM 提示，要求模型在执行非平凡的编码/写作/编辑任务前，先提最多三个有针对性的澄清问题（简单事实查询则跳过）。

阅读原文 · xda-developers.com →

Article IX

别再优化 prompt 和 RAG——它们的保质期以「模型版本」计

prompt engineering、RAG、手工编排 workflow 本质都在为「去年的模型约束」做优化；模型变强后，工程价值会从 workflow 迁移到「围栏」——工具（MCP）、权限范围、guardrail、eval 与集成纪律。

▸ 点击展开详情

为什么重要

把职业成长时间花在 prompt/RAG/workflow 技巧上的工程师，正在投资保质期极短的技能，这关系到你未来 12 个月把学习预算押在哪。

实践要点

学习重心转向耐用的「表面」：API 机制（streaming/caching/成本）、MCP 工具+schema+权限设计、hook 拦截式 guardrail、针对具体问题的 eval；让模型自己搭 workflow、用 tool-based retrieval 取上下文，而非前置硬塞 RAG。

阅读原文 · adsurg.substack.com →

落地实践

Article X

「token 更便宜」的悖论：单价跌九成，账单反而涨

按 token 计费制造了悖论——2030 年单 token 成本跌约 90%，但 agentic 模型每个任务的 token 消耗暴增，企业 AI 总账单不降反升。「token 更便宜」被错当成了「AI 更便宜」。

▸ 点击展开详情

为什么重要

用排行榜、tokenmaxxing 激励员工最大化用 AI 的企业，正面对失控且没预算的算力开销，甚至可能超过本要替代的人力成本；微软据报已开始收回内部 Claude Code 许可。

实践要点

用「每任务 token 数 × 任务量」而非单 token 标价给 agentic AI 做预算，激励采用前先设上限与计量。Uber 4 个月就烧光 2026 全年 AI 编码预算；高盛预计到 2030 年 token 消耗增长 24 倍。

阅读原文 · fortune.com →

本周的 AI 工程信号高度一致：直觉正在被逐条证伪。我们默认「更快、更多 token、更智能的模型」就是进步，但本期 10 篇研究与实践共同指向相反方向——真正的杠杆藏在你愿意为「确定性」付出的结构成本里。Nolan Lawson 用多模型对抗审查把代码写得更慢却更好；DeepSWE 揭穿近三分之一的编码 benchmark 判定其实是错的；一篇 arXiv 论文证明「域伪装」注入能让护栏检出率从 93.8% 崩到 9.7%。与此同时，token 经济学的账本开始反噬——单价跌九成，企业账单却因 agent 的吞噬式消耗不降反升，Uber 四个月烧光全年预算，微软开始收回 Claude Code 许可。另一条暗线是「耐用性」：与其优化保质期以模型版本计的 prompt 与 RAG，不如投资 MCP、权限、guardrail 与 eval 这些围栏；甚至 agent 自身的进化也在下沉到源码层。把这些放在一起，本周的结论很清晰：AI 工程正从「追求产出速度」转向「为正确性与可验证性建立结构」——谁先建好围栏，谁才真正跑得快。

为确定性建造的坚固工程结构：多层验证围栏、审查塔楼与权限护栏将强大的模型核心稳稳护住，外部速度与数量的混沌浪潮被挡在墙外