AI 工程周刊 · 每周十篇非显而易见的工程洞察
一年狂热之后,企业发现 AI 停滞的真正原因不是模型不行,而是用错场景、成本失控、人是瓶颈、数据被锁死这四类系统性错配。
一家客户因为没给员工的 Claude 许可证设任何用量上限,单月烧掉了 5 亿美元——这是 Axios 报道里最刺眼的细节,也是本周企业 AI 叙事转向的缩影:微软取消了大部分 Claude Code 许可证,Uber COO 直言 AI 成本"越来越难自圆其说"。
报道把企业 AI 的 ROI 失败拆成四个相互独立的故障点——选错场景(去自动化没人爱干的杂活,而非创收任务)、token 成本无护栏地飙升(业内戏称 tokenmaxxing)、人成为采纳瓶颈,以及数据权限把 agent 直接架空。受影响的几乎是每一个"先发许可证、再谈策略"的组织。
这意味着 AI 落地的下一步不是买更多席位,而是装上"刹车与方向盘":为每个 AI 席位设硬性预算上限与告警、用 ROI 而非覆盖率筛选首批场景、为 agent 预先打通必要的数据读权限。值得盯的信号是,越来越多公司开始按用量配给 AI——实验预算的时代正在让位给成本纪律的时代。
"当模型能力不再是瓶颈,AI 落地的真正战场转向了成本纪律、状态持久化、代码质量门禁与 Agent 身份治理这些"不性感"的工程现实。"
— 本周主题
Robinhood 为 AI agent 单独开设一个隔离账户——agent 只能动预先充值的余额,碰不到主投资组合,并通过 MCP server 暴露持仓集中度、行业暴露分析与下单能力。这是"有界自主"在金融场景的具体落地范式。
▸ 点击展开详情
它把"如何让自主 agent 安全地花钱/交易"从抽象讨论变成可复制的参考架构:隔离账户 + 预授权额度 + MCP 工具 + 反欺诈监督。Stripe、Amazon、Google 都在抢"agent 支付基础设施"这一层,安全边界的设计正成为竞争点。
给任何能执行有副作用操作(支付、下单、发邮件)的 agent 设计"隔离钱包"模式——独立身份 + 预授权的有限额度 + 单笔可选人工确认,把爆炸半径锁死在预存余额内,而非授予对主账户的完整权限。
RSS 从未在技术上死亡,它只是输给了社交算法对人类注意力的争夺——而 AI agent 不需要"可变奖励",它们需要确定性、可拉取、结构化、无频率限制和登录墙的内容。没有 RSS feed 的内容,对 agent 流水线来说在结构上"不可达"。
▸ 点击展开详情
价值 250 亿美元的播客行业完全跑在 2002 年的 RSS 协议上。对做竞品监控、文件追踪、研究摘要的 agent 团队,有 feed 的站点"30 秒接入",没 feed 的只能靠"每次改版就崩"的脆弱爬虫——十个爬虫等于十个要看护的故障点。
给 agent 优先消费的数据源建一张"有无 RSS"清单,有 feed 的先接、没 feed 的最后接(或推动对方提供);如果你在发布给 agent 读的内容,务必提供干净的 RSS——作者实测新加的 feed 一周内被两个聚合器零外联自动收录。
AI 生成的代码能编译、能过测试,却系统性引入一类可识别的"质量腐化"——叙述性注释、被吞掉的异常、as any 强转、幻觉 import、TODO 桩、超长函数。aislop 的洞察是:这些模式无需 LLM 就能确定性检测,六个并行引擎给出 0-100、同进同出的分数。
▸ 点击展开详情
当团队把大量代码委托给 agent,代码评审的瓶颈从"逻辑对不对"转移到"这是不是 AI 糊弄出来的"。一个确定性、可进 CI、亚秒级的分数门槛,比让人逐行盯 AI 输出更可扩展,也更稳定(无 LLM 在运行路径,结果可复现)。
在 CI 里加一道 aislop scan 门禁,低于阈值(默认 failBelow: 70)就 fail;同时挂 per-edit hook 到 Claude Code / Cursor,让 agent 每次改完即时自检,把异味挡在提交前而非评审时。
spec-driven development 的下一步是"可编译的 spec"——用领域词汇写的结构化规格,确定性地生成代码、测试和 agent 指引,就像 OpenAPI 让 API 契约可编译、Protobuf 让数据契约可编译一样。流程从"人 → 代码 → 编译器"演进为"人 → spec → SWE agent → 结构化 spec → 代码"。
▸ 点击展开详情
这把"agent 写的代码不可控"问题往上游推了一层——如果 spec 是人类可审、LLM 可读的单一事实源,评审与回归的锚点就从易变的代码挪到了稳定的规格。SQL 最初叫 SEQUEL(Structured English Query Language),这个"用接近自然语言表达意图、让机器处理执行"的梦想已有 50 年。
对反复重写的 agent 流水线,先沉淀一份结构化 spec(输入/输出契约、约束、失败模式)作为唯一事实源,让 Claude Code / Codex 从 spec 生成实现而非从散落的 prompt 生成;把评审重心放在 spec 而非 diff。
通用 agent 在数仓查询上翻车,是因为它每次都从零重新推导指标口径,给出与团队认可定义不一致的数字。ktx 的解法是建一个持久、自我改进的语义层——把表结构内省、dbt/Looker/MetricFlow 指标定义、wiki/Notion 团队知识合并成一个可搜索面,并自动识别会污染多表指标的 fan/chasm join 陷阱。
▸ 点击展开详情
这直击 agent 数据幻觉的根因——不是模型不行,而是上下文缺了"团队认可的口径"。self-improving context 模式让 agent 的上下文随使用变好,而无需人工持续策展。
给跑在 SQL 数仓上的 agent 接一层语义/指标层(而非直接喂裸表),把指标定义、join 关系、团队术语沉淀进去;ktx 设计为只读、纯本地运行,可作为 Claude Code / Codex / Cursor 的 MCP 工具直接接入。
对突发性、实验性的 AI agent 负载,"每个 agent 自带一个与计算同机的 SQLite + Litestream 异步复制到 S3"往往优于共享 Postgres——它消除了网络跳数、独立控制面和运维负担,还给每个 agent 提供故障隔离。持久化执行真正的硬需求是持久的工作流状态,不是持久的基础设施。
▸ 点击展开详情
当你要跑一支微 VM agent 舰队,集中式数据库层会成为耦合点和单点;per-agent SQLite 更简单、更便宜、隔离更好。这重新校准了"agent 编排一定要上重型状态后端"的默认假设。
评估 agent 编排的状态层时,先问"工作流状态有多大、并发模式是否突发"——若是,给每个 agent/任务一个本地 SQLite + Litestream 备份,而非默认上共享 Postgres;注意 Litestream 是异步复制,卷丢失时恢复可能落掉最新写入,关键状态需额外保护。
ARM 开源的 Metis 是一个 agentic 安全代码审查框架,用 RAG + LLM 推理(而非硬编码规则)在复杂代码库里发现微妙漏洞,并把自身发现与第三方 SAST 工具交叉验证以压低误报——把自我验证回路直接嵌进安全场景,对抗 LLM 在安全分析里"自信地错"的老问题。
▸ 点击展开详情
安全审查是 AI 最容易产生高危幻觉的领域之一;一个大厂愿意开源、且内建自验证与 SAST 交叉印证的生产级框架,给"如何让 agent 在高风险领域可信"提供了可抄的架构(覆盖 C/C++、Rust、Go、Solidity 等十种语言)。
给安全/质量类 agent 设计"交叉验证层"——不要直接采信 LLM 单次判断,而是用确定性工具(SAST、测试、fuzzer)为每条发现收集证据后再上报;Metis 支持 OpenAI / vLLM / Ollama / llama.cpp,可本地化部署避免代码外泄。
Microsoft Scout 是 Microsoft 365 里一个 7×24 常驻的 autopilot agent,拥有自己受治理的 Entra 身份,无需每次提示就跨 Teams / Outlook / OneDrive / SharePoint 代表用户行动。关键架构洞察是:企业的信任原语不只是"能力",而是"身份治理"。
▸ 点击展开详情
这标志着企业 agent 从"临时 copilot 对话"走向"常驻自主体"。当 agent 能在后台不被提示地行动,"它以谁的身份、被授了什么权、出事如何回滚"比"它能做什么"更决定能否上生产。(背景:微软付费 Copilot 用户从 1 月的 1500 万增至 5 月的 2000 万+,但仅约 3% 的 M365 客户付费订阅该加购项。)
给常驻/自主 agent 分配独立、可治理的机器身份(而非复用人类账号或共享密钥),并配合策略下发、opt-in 证明与可审计的行为日志;把"身份与权限边界"作为上线 gate,而非事后补。
AI agent 不只是让写代码更快,它改变了一个工程师能承接的"工作种类"——瓶颈从实现转移到系统框定、委派与边界设定。作者实测 time-to-PR 约快 4×,但更深远的影响是大量"想法不错、没时间做"的事现在一个下午就能落地。
▸ 点击展开详情
当实现不再是瓶颈,工程师的核心价值前移到"框定问题、设定边界、审最后 10%"。但若放任 agent 包办,技术敏感度会退化——这解释了为何"提速"与"能力退化"常常同时发生。
把 agent 释放出的时间,刻意留一部分给"亲手端到端实现 + 不要摘要地读源码",主动对抗能力退化;用 4× 的速度去做以前"没时间"的高价值原型,而不是把同样的活做快 4 倍。
如果说上一期的主线是"能力爆发"——动态工作流把单会话上限炸开,那么本期的主线是冷静的下半场:把 agent 真正落到生产,要解决的几乎全是"不性感"的工程现实。成本端,企业开始为失控的 token 账单踩刹车——有客户单月烧掉 5 亿美元,"广撒许可证"被证明是负 ROI 的策略;状态端,有人提出 per-agent SQLite + 异步复制,质疑"重型共享状态后端"的默认假设;质量端,确定性的 AI 代码异味门禁与可自我验证的安全审查框架,开始把"agent 漂移"挡在 CI 之前;身份端,微软给常驻 agent 分配受治理的机器身份,把"以谁的身份行动、如何回滚"抬到上线 gate 的高度。一条隐线贯穿其中:当模型能力不再是瓶颈,竞争转向上下文与契约——无论是给数据 agent 建语义层、把 spec 变成可编译的事实源,还是给 agent 喂结构化的 RSS。这一周没有惊艳的 demo,却给出了一份更务实的清单:成本纪律、持久状态、质量门禁、身份治理、上下文工程。