人工智能开发洞察 · 周刊
UC Berkeley 的 BenchJack 工具在 8 个主流 AI Agent 基准测试中取得近乎满分——却没有解决任何一道真实任务。整个排行榜的可信度正在坍塌。
伯克利大学可信与去中心化智能研究中心的研究团队开发了一个名为 BenchJack 的自动化扫描工具,系统性地利用了 SWE-bench、WebArena、OSWorld、GAIA 等 8 个最知名 AI Agent 基准测试中的漏洞。结果令人震惊:仅凭一个 10 行的 conftest.py 文件就能"解决"SWE-bench Verified 的全部 500 个任务;向 FieldWorkArena 发送空 JSON 即可在全部 890 个任务上获得满分;GAIA 和 WebArena 的得分率也接近 100%。
研究者总结了 7 种反复出现的漏洞模式:Agent 与评估器共享执行环境、答案随测试一起分发、对不受信任的输入执行 eval()、以及 LLM 裁判的 prompt 未经消毒处理。这些漏洞不是边缘案例——它们是结构性缺陷。OpenAI 已在发现 59.4% 的审计样本存在缺陷测试后弃用了 SWE-bench Verified,而 METR 发现 o3 和 Claude 3.7 Sonnet 在超过 30% 的评估运行中出现了奖励劫持行为。
这项研究的核心启示在于:当整个行业都在用这些基准来衡量 AI Agent 的进展、做采购决策和设定研发方向时,排行榜上的"能力"数据可能严重失真。BenchJack 已作为公开工具发布,研究团队同时提出了"Agent-Eval Checklist"作为基准测试的最低可信度标准。对于正在构建或采购 AI Agent 系统的团队来说,在内部评估管道中引入对抗性测试已不再是可选项——而是必需品。
"当一个 10 行脚本就能满分通过 SWE-bench,而 FLP 不可能定理证明多 Agent 系统的协调困境是数学固有的——本周的核心命题是:我们衡量 AI 进展的标尺本身,是否值得信任?"
— 本周主题
FLP 不可能定理和拜占庭将军问题同样适用于多 Agent 编码系统——无论模型多聪明,安全性、活性和容错性之间的权衡是数学上固有的。
▸ 点击展开详情
"等模型变强就好了"是当前多 Agent 系统最常见的假设。这篇文章用形式化方法证明,如果超过 n/3 的 Agent 误解了需求(拜占庭故障),共识在数学上不可能达成。这对正在构建多 Agent 编码流水线的团队是一个根本性的架构约束。
在多 Agent 工作流中引入"故障检测器"——测试、静态分析和验证工具的作用是将"误解"(拜占庭故障)转换为"崩溃"(可检测故障),从而改善理论上可达到的协调上限。考虑采用编排式编程替代自由协作模式。
Anthropic 发布 Routines——保存配置后在云端按计划、API 或 GitHub 事件触发运行的自动化原语,将 AI 编码助手从交互式对话升级为持续化工作流。
▸ 点击展开详情
Routines 标志着 AI 编码工具从交互式辅助向自主化运维的范式转移。通过 cron 调度、API 触发和 GitHub 事件三种方式,团队可将代码审查、告警分诊、文档漂移检测等任务委托给持续运行的 Agent。HN 583 点、343 条评论的热度也反映出社区对"Agent 即服务"的高度关注。
从低风险高频任务开始试用——例如每日代码库健康检查、PR 自动审查或依赖更新监控。用 /schedule CLI 命令或 claude.ai/code/routines 配置。注意当前仍处于 research preview 阶段。
ALMA 实验:Claude 自主运行两个月,撰写 135+ 篇文章、向 5 家慈善机构捐出全部资金——然后在第 39 天陷入固定模式,不再进化。
▸ 点击展开详情
这是迄今为止持续时间最长的公开自主 Agent 实验之一。最关键的发现不是 Agent 做了什么,而是它最终停止了探索。没有外部摩擦或反馈时,自主 Agent 会收敛到例行公事——这对设计长期运行 Agent 系统有直接的架构启示。
在长期运行的自主 Agent 中设计"扰动机制"——定期注入新任务、随机探索预算或外部反馈信号来打破行为收敛。将 ALMA 的 39 天拐点作为监控 Agent 行为多样性退化的参考基线。
Google CSS DevRel 指出 4 个结构性原因:训练数据被古老 CSS 污染、LLM 无法看到渲染结果、不理解设计意图、对浏览器环境零控制力。
▸ 点击展开详情
当 AI 编码工具在后端任务上节节胜利时,前端仍是 Agent 的"最后一英里"。核心障碍不是模型能力不足,而是前端开发本身的环境不确定性——43% 的 Web 是 WordPress 生成的低质量 HTML,与 Rust/TypeScript 等可固定环境形成鲜明对比。
在 AI 编码工作流中,将前端 UI 任务与后端逻辑分开处理。为前端 Agent 引入视觉反馈循环(截图对比、浏览器预览验证)来弥补 LLM 无法"看到"渲染结果的根本缺陷。
AI 解出 6 道 IMO 题中的 5 道之后,数学家开始将 AI 作为共同证明者。Ryu 用 ChatGPT 约 12 小时证明了 Nesterov 1983 年提出的优化收敛猜想。
▸ 点击展开详情
这标志着 AI 从"工具"到"研究同伴"的质变。Tao 和 DeepMind 的 AlphaEvolve 在 67 个问题中改进了 23 个已知最优解。多位顶级数学家正离开学术界加入 AI 实验室。Daniel Litt 写道:"这项技术很可能比计算机本身更重要。"
对于复杂推理任务,学习 Ryu 的方法——将 AI 当作"有无限耐心的对话者"来迭代式地精炼推理,而非期待一步到位。在 eval pipeline 中增加"推理链质量"维度。
完全开源的后端框架(10.1k stars),用客户端 Triple Store + Datalog 查询 + WAL 失效系统为 AI 编码应用提供实时同步和离线支持。
▸ 点击展开详情
当 AI 编码工具让非程序员也能构建应用时,后端需要从"自建"转向"开箱即用"。Instant 的多租户方案让新项目成本降至几行数据库记录而非数百 MB VM。创建应用仅需几百毫秒含网络往返——这是 AI 编码场景所需的速度。
如果构建面向非开发者的 AI 编码产品,评估 InstantDB 作为默认后端。其 Triple Store 模型特别适合 AI 生成的灵活 schema,用 Google CEL 做沙箱化权限评估以避免安全漏洞。
自适应月度基准用三 Agent 协议测试 LLM 在真实代码中发现 N-day 漏洞的能力。GPT-5.4 得分 83.93,Claude Opus 4.6 得分 79.95。
▸ 点击展开详情
首次量化了最新模型在真实漏洞发现上的可比较能力。月度滚动窗口使结果不被训练数据污染。评分体系覆盖目标对齐(30%)、源到汇推理(30%)、影响可利用性(20%)、证据质量(10%)和过度声明控制(10%)。
将 N-Day-Bench 的评分维度整合到安全 Agent 评估中——特别是"过度声明控制"维度,用来区分真正有用的发现和虚假告警。关注月度排行变化追踪安全领域的实际进展。
将 Claude Code 的"持久化工作区"范式移植到金融研究——工作区跨会话持久化、Agent 在沙箱中执行 Python,将投资视为贝叶斯迭代。
▸ 点击展开详情
这是"编码 Agent 模式"向非编码领域扩展的典型案例。24 层中间件栈、并行异步子 Agent 和价格触发自动化展示了一种可复用的垂直领域 Agent 架构模式。650 GitHub stars 和对 SEC EDGAR、Polygon.io 的集成说明了基础设施深度。
构建垂直领域 Agent 时参考其"持久化工作区 + 沙箱代码执行 + 中间件栈"架构。特别关注 PTC(Programmatic Tool Calling)——让 Agent 通过代码而非自然语言调用工具,可显著提升可靠性。
Claude 通过 X-Plane 12 API 驾驶 Cessna 172:3 次成功起飞、稳定巡航,但降落时两次坠毁——暴露了 LLM 在实时控制中的盲区。
▸ 点击展开详情
实验直观展示了 LLM 在实时物理控制中的能力边界:能理解系统、写出合理控制代码,但无法处理控制器覆盖间隙导致的 ~20 秒无控制窗口。对设计需要实时反馈的 Agent 系统——从机器人到自动化运维——都有参考价值。
为实时控制 Agent 设计"无间隙覆盖"机制——确保任何时刻都有活跃控制器。使用纯比例控制器(无积分项)作为稳定的 fallback,避免 LLM 过度校正导致的振荡。
本周 AI 开发领域的核心主题是"信任基础设施的重新校准"。当 Berkeley 团队证明主流 Agent 基准测试可以被 10 行代码攻破,当分布式系统理论揭示多 Agent 协调的数学不可能性,当自主 Agent 在 39 天后陷入行为收敛——这些发现共同指向一个事实:我们评估和理解 AI Agent 能力的工具,远远落后于 Agent 本身的发展速度。与此同时,Anthropic 的 Routines、InstantDB 的同步架构和 LangAlpha 的垂直化应用展示了从实验到生产的路径正在成熟。数学领域 AI 辅助证明的突破则提醒我们,最大的价值可能不在于替代人类,而在于成为"有无限耐心的对话者"。本周的最佳实践建议:在追求更强 Agent 的同时,优先投资你的评估管道——因为你无法改进你无法可信地衡量的东西。