当 AI 从“单兵作战”走向“项目小组”：Anthropic 长任务 Harness 的通俗解读

发布日期: 2026-03-25

一句话先说结论

这篇 Anthropic 工程文章最核心的启发是：当任务从“写一段代码”升级到“持续几小时构建完整应用”时，真正拉开差距的，往往不只是模型本身，而是你给模型搭的“协作组织”——也就是 harness（执行框架）。

先讲个故事：为什么“一个很强的人”不够

想象你要在一天内做出一款能玩的小游戏编辑器。你请了一个非常厉害的全栈工程师，让他一个人从产品定义、界面设计、代码实现、测试验收到最后发布，全包。这个人确实强，20 分钟就能做出一个看起来像样的 demo。

问题是，越往后越容易出事：界面看着像能用，但流程不顺；功能按钮都在，关键交互却有坑；最尴尬的是，“最核心的功能”可能压根没真正跑通。你问他质量如何，他还会自信地说“已经挺好了”。这不是态度问题，而是单兵模式天然有盲区：做的人很难同时当一个足够苛刻的审稿人。

Anthropic 这篇文章做的，就是把这个“单兵困境”系统化拆开：既然一个 AI 容易“边做边自我感动”，那就别让它一个人闭环。给它配上“策划”和“质检”，让它变成项目小组。

文章里最关键的结构是三类角色：

这套分工听起来朴素，但特别像真实团队：产品给方向，开发做实现，测试挑毛病。真正有效的点不在“角色名字”，而在“权力分离”：做事的人不能自己给自己打满分，必须接受外部审视。

作者先在前端设计场景里验证了一个很有意思的做法：把“这页面好不好看”这种主观问题，拆成可讨论、可评分的维度，比如设计整体性、原创性、工艺细节、可用性。然后让生成者和评估者都围绕这套标准迭代。

这一步非常关键。因为很多团队做 AI 生成时，反馈只有“再高级一点”“再好看一点”，这种反馈很难执行。你换成“原创性不够，像模板拼装；视觉层级没拉开；交互主路径不明确”，模型就有了可操作的改进方向。换句话说，不是把审美变成数学，而是把模糊抱怨变成结构化批评。

文章还点了两个长任务常见问题。第一是上下文越来越长后，模型容易失去一致性，甚至出现“快到上限了赶紧收尾”的焦虑行为。第二是自我评估偏乐观，尤其在主观任务里更明显。

早期模型里，他们用过“上下文重置 + 交接文档”来维持稳定；到了更强新模型，很多情况下可以减少这类复杂操作。这背后传达的不是“某种架构永远正确”，而是：harness 不是一劳永逸的制度，它会随模型能力变化而变化。以前必须加的脚手架，未来可能是负担；以前做不到的自治流程，未来可能变成默认能力。

文中有组很直白的数据：单智能体跑 20 分钟，成本约 9 美元；完整 harness 跑 6 小时，成本约 200 美元。贵了二十多倍。看上去像“杀鸡用牛刀”。

但如果你把目标定义成“做个能截图的演示页”，单智能体当然划算；如果目标是“做个能让用户真用起来、核心交互不崩的应用原型”，那多出来的评估和返工闭环就有意义。说白了，这不是绝对更好，而是你愿不愿意为“可靠交付”付钱。

你不需要今天就上三代理、Playwright 全自动、数小时迭代。更实用的做法是从轻量版开始：

这四步看着不酷，但非常实战。AI 工程里最容易犯的错，就是迷恋花哨架构，却没建立最低限度的质量约束。

如果说第一阶段大家比的是“谁 prompt 写得妙”，那现在正在发生的变化是：谁更会设计一个让模型持续产出、持续纠错、持续收敛的工作系统。Anthropic 这篇文章的价值，不在于告诉你“唯一正确答案”，而在于示范了一种工程思路：把模型当作团队成员，而不是万能个体。

未来模型会越来越强，这几乎是确定的。但也正因为模型更强，任务边界会继续外扩，新的复杂性会不断出现。你可以等模型变好，也可以主动设计更好的协作框架。真正的分水岭，往往在后者。