AI 工程周刊 · 每周十篇非显而易见的工程洞察
LLM 编码的最大杠杆不是「快速出 PR」,而是把多个不同模型当成对抗式审查员并行扫描同一份代码。
当多数人把编码 agent 当成「slop 喷射器」、用吞吐量衡量价值时,Nolan Lawson 给出了一个反直觉的用法:用 Opus 4.7 与 GPT 5.5 等多个模型各跑一遍 review,让它们作为相互独立的审查员扫描同一个 PR。
这套流程的精髓在「相互印证、逐条清除误报」——不同模型的盲区并不重叠,交叉比对后误报率趋近于零,还顺带翻出了大量潜伏的存量 bug。它把 agent 从「提速工具」重新定位成「质量工具」,直接挑战了「AI = 更快」的默认假设。受影响的是所有在意代码库长期健康的工程师:慢,在这里是特性而非缺陷。
可立即落地的做法:构建一个 review skill,把单个 PR 扇出给 3+ 个不同模型(如 Claude sub-agent + Codex + Bugbot),按 critical/high/medium/low 分级;每轮之间清空 context 避免污染,主 agent 先排除误报再优先修 critical。下一步值得观察的是:当多模型对抗审查成为标配,团队的 PR 节奏与 review 文化会如何被重塑。
"AI 工程的杠杆不在更快、更多、更智能,而在你愿意为确定性付出的结构成本。"
— 本周主题
AI 倦怠的根源不是工时,而是「规划→打磨→产出」的满足闭环被结构性破坏——AI 拿走有手感的写代码,把人推向最耗神的「review 机器产出」,ownership 流失迫使人用更多产量补偿,越补越累。
▸ 点击展开详情
对 AI-first 团队、尤其要消化海量生成代码的资深 reviewer,这是被生产力指标完全掩盖、且会自我加速的隐性成本,解释了「更高效却更累」这个反直觉现象。
主动保护「无 AI 的手作时间」;用 plan mode 开局,连续 3–4 步失败就重启而非死磕;不要把两个 AI 重度任务背靠背排;维护一份 win-log 重建 ownership 感。
把 GPT 当随机数生成器,它给的是被「驯化」过的人类偏好——保留聪明梗 42(被选中是均匀分布的 4 倍),却压制粗俗梗 69(仅 0.29 倍),说明安全护栏会以可测量的方式重塑模型的统计先验。
▸ 点击展开详情
任何把 LLM 当抽样/随机化、或默认其输出分布「中立」的人都中招——护栏会泄漏进看似中性的生成里,是典型的 unknown unknown。
永远不要用 LLM 做随机/均匀数生成;1 万次 gpt-4.1 调用(temp=1.0)得 χ²≈15604、p≈0,分布极不均且随 prompt/温度漂移——需要随机性请用真正的 RNG。
被传颂的复杂 GeoGuessr 提示词没带来真实提升——o3 本就擅长地理定位,花哨 prompt 只是搭了基础能力的便车。更危险的是「问模型『这样有帮助吗』」会被它编造的肯定回答骗到,只有 held-out benchmark 能揭穿真相。
▸ 点击展开详情
对所有做 prompt engineering 的人是当头一棒:你很可能把模型的基础能力误记成自己 prompt 的功劳,在无效优化上反复投入精力。
用固定的 held-out benchmark,在「加/不加」改动下各跑一次再对比,绝不信模型自述。作者 200 张图基准里,默认 prompt(中位误差 83.2km)反而胜过花哨 prompt(102.3km),全程约 15 美元、6 小时。
benchmark 不可靠的根因不在题难,而在 verifier 质量与数据污染。沿用 merged-PR 测试套件当 verifier 评分极不可靠;改用人工编写、面向行为规格的 verifier + 全新原创任务后,公开榜上「打平」的模型立刻拉开清晰差距。
▸ 点击展开详情
任何依据编码 agent 排行榜来选型或建立信任的人都该警惕——一个头部 benchmark 近三分之一的 pass/fail 判定可能是错的。
自建 eval 时 verifier 从行为规格写起(接受任何正确实现),别复用上游 PR 测试套件;任务保持在公开 Git 之外避免污染。SWE-bench Pro 有 8% 假阳性、24% 假阴性,LLM judge 与其在 32% 的 trial 上分歧(DeepSWE 仅 1.4%)。
现有注入检测器都在「会自报身份」的越权指令样本上训练;一旦把 payload 改写成模仿目标文档自身的领域词汇与权威结构(domain camouflage)就能整片溜过——而且这是弱模型的架构性弱点,不是调参能补的 bug。
▸ 点击展开详情
任何在多 agent LLM 系统里用现成注入/安全分类器做防护的团队,对「上下文感知型攻击」几乎是完全盲区。
别把模板训练的检测器(含 Llama Guard 3)当主防线;用域伪装 payload 测试 guard,小模型上避免 debate 拓扑。检出率从 93.8% 暴跌到 9.7%(Llama 3.1 8B),Llama Guard 3 对伪装 payload 检出率为 0%,debate 在小模型上放大攻击最高 9.9 倍。
现有「自进化」agent 只改文本制品(prompt/skill/memory/workflow 图),动不了 harness 代码本身——藏在路由、hook 顺序、dispatch 里的结构性故障物理不可达。MOSS 主张源码级改写是图灵完备超集,确定性生效、不随长上下文漂移退化。
▸ 点击展开详情
对交付生产级 harness 的 agent 框架作者,反复出现的结构性 bug 现在只能等人来打补丁;源码级自修复让 agent 在代码层自己修自己。
把每个自进化周期锚定在一批真实生产故障证据上,候选改动用「临时 trial worker 重放故障批次」验证,并以 health-probe 门控回滚。单个进化周期把 4 任务平均分从 0.25 提到 0.61,全程无人介入。
本地模型缺少云端大模型「读懂言外之意」的海量数据能力,模糊的开场 prompt 会拖垮整段交互。强制它动手前先反问澄清正好补短板——多几轮对话,整体反而更省时。
▸ 点击展开详情
对自托管 / 本地 LLM 用户,一次性的 system prompt 改动就能让较弱模型产出明显更可用的结果,门槛极低、收益直接。
在 Modelfile 里加一段常驻 SYSTEM 提示,要求模型在执行非平凡的编码/写作/编辑任务前,先提最多三个有针对性的澄清问题(简单事实查询则跳过)。
prompt engineering、RAG、手工编排 workflow 本质都在为「去年的模型约束」做优化;模型变强后,工程价值会从 workflow 迁移到「围栏」——工具(MCP)、权限范围、guardrail、eval 与集成纪律。
▸ 点击展开详情
把职业成长时间花在 prompt/RAG/workflow 技巧上的工程师,正在投资保质期极短的技能,这关系到你未来 12 个月把学习预算押在哪。
学习重心转向耐用的「表面」:API 机制(streaming/caching/成本)、MCP 工具+schema+权限设计、hook 拦截式 guardrail、针对具体问题的 eval;让模型自己搭 workflow、用 tool-based retrieval 取上下文,而非前置硬塞 RAG。
按 token 计费制造了悖论——2030 年单 token 成本跌约 90%,但 agentic 模型每个任务的 token 消耗暴增,企业 AI 总账单不降反升。「token 更便宜」被错当成了「AI 更便宜」。
▸ 点击展开详情
用排行榜、tokenmaxxing 激励员工最大化用 AI 的企业,正面对失控且没预算的算力开销,甚至可能超过本要替代的人力成本;微软据报已开始收回内部 Claude Code 许可。
用「每任务 token 数 × 任务量」而非单 token 标价给 agentic AI 做预算,激励采用前先设上限与计量。Uber 4 个月就烧光 2026 全年 AI 编码预算;高盛预计到 2030 年 token 消耗增长 24 倍。
本周的 AI 工程信号高度一致:直觉正在被逐条证伪。我们默认「更快、更多 token、更智能的模型」就是进步,但本期 10 篇研究与实践共同指向相反方向——真正的杠杆藏在你愿意为「确定性」付出的结构成本里。Nolan Lawson 用多模型对抗审查把代码写得更慢却更好;DeepSWE 揭穿近三分之一的编码 benchmark 判定其实是错的;一篇 arXiv 论文证明「域伪装」注入能让护栏检出率从 93.8% 崩到 9.7%。与此同时,token 经济学的账本开始反噬——单价跌九成,企业账单却因 agent 的吞噬式消耗不降反升,Uber 四个月烧光全年预算,微软开始收回 Claude Code 许可。另一条暗线是「耐用性」:与其优化保质期以模型版本计的 prompt 与 RAG,不如投资 MCP、权限、guardrail 与 eval 这些围栏;甚至 agent 自身的进化也在下沉到源码层。把这些放在一起,本周的结论很清晰:AI 工程正从「追求产出速度」转向「为正确性与可验证性建立结构」——谁先建好围栏,谁才真正跑得快。