模型发布幕后:早期测试用户发现的 Claude Opus 4.6 能力
来源: Claude.com Blog
发布日期: 2026-03-06
类型: 产品更新
概述
在新版 Claude 模型正式向公众发布之前,有一小群客户会提前几天获得访问权限。这些早期测试者使用预生产研究模型,针对真实工作负载进行测试,以弄清楚模型擅长什么、在哪里会出问题,以及是否准备好在 Anthropic 公开发布时立即交付给自己的用户。他们提供的诚实评估——包括有效的部分和无效的部分——直接塑造了 Anthropic 最终发布的模型版本。
本文揭示了这一幕后过程的真实面貌。Harvey、bolt.new、Shopify 和 Lovable 四家公司分享了他们在 Claude Opus 4.6 早期访问期间的经历:他们采用的方法、发现的突破以及比任何人都更早学到的经验。从深夜的紧急测试到 Slack 频道在奇怪时间点的消息闪烁,从自动化基准测试到工程师的”直觉检查”,这个过程既混乱又充满乐趣。测试结果表明,Claude Opus 4.6 在推理深度、指令遵循、设计质量和自主性方面都有显著提升,成为首个在 Harvey 大律所基准测试中突破 90% 得分的 Anthropic 模型。更重要的是,用户与模型的关系正在发生变化——从被动使用转向真正的协作伙伴关系。
核心内容
模型测试的准备工作
各团队的准备方式取决于他们的构建目标:
bolt.new 创建了一个专用的 Slack 频道,并刻意在早期避免分享印象,以免相互影响产生偏见。
Harvey 的研究团队邀请经验丰富的律师在真实法律任务上测试模型,同时运行 BigLaw Bench(他们的现实法律工作基准测试)。
Shopify 的工程师开始将模型输入他们已经围绕 Claude 构建的迭代规划循环中。
Lovable 负责模型和评估的团队立即行动起来——在运行基准测试的同时,工程师们预订时间进行他们所谓的”直觉检查”(vibe checks),用新模型构建应用程序来感受它的强项所在。Lovable 的工程负责人 Alexandre Pesant 表示:”这有点像圣诞节。”
尽管方法不同,但本能是一样的:首先把最困难的问题抛给模型。
测试结果开始涌现
一旦测试开始,团队会关注两件事:模型在基准测试中的得分,以及它在实践中的实际感受。两者都很重要,而且它们并不总是告诉你相同的信息。
Harvey 的基准测试突破
Harvey 的 BigLaw Bench 测试结果显示得分为 90.2%——这是首个在该基准测试中突破 90% 的 Anthropic 模型,其中 40% 的任务获得了满分。但真正让人印象深刻的是定性反应。
他们的一位内部律师运行了一个查询后回来说,输出感觉”聪明且具有分析性,就像它真的在思考一样”。当结构化评估和领域专家都给出相同的评价时,这是一个强烈的信号。
bolt.new 的代码调试能力
bolt.new 结合了他们的自动化评估平台(测试构建质量、错误修复、代码库理解和设计美学)与手动压力测试。到第一天结束时,他们已经有了一个充满已部署测试应用和具体观察结果的共享文档。
一位开发者遇到了一个瀑布图 bug,该 bug 在前一个模型上已经失败了五次以上。Opus 4.6 在第一次尝试时就诊断出了问题,发现了八个并行的 HubSpot API 搜索同时触发,以及额外的查询通过使用原始 fetch 而不是项目的速率限制包装器绕过了速率限制保护。
Shopify 的指令遵循改进
在 Shopify,助理团队的资深工程师 Ben Lafferty 从不同方向进行了测试。他让 Opus 4.6 将一个大型库从 TypeScript 移植到 Ruby,用于内部原型。”它创建了一个 shim 来针对仓库中现有的测试用例运行,然后一次性移植了几乎整个规范,同时针对原始测试集进行了验证,”他说。”指令遵循能力显著提升。这是早期访问期间我不需要提供大量反馈的第一次。”
anticipatory 行为
Shopify 的另一位资深工程师 Paulo Arruda 描述了一个颠覆常规动态的时刻:”我让 Opus 4.6 把某个东西从一个页面移到另一个菜单项——我就说了这么多。我没有指定任何细节。它不仅移动了它,还超出了预期,创建了很多我直到看到才知道我想要的细节。它预测了我的下一个请求并直接完成了。我发现自己对 AI 说’你完全正确’,而不是像以前那样的相反模式。”
Lovable 的双轨测试
在 Lovable,测试在两个轨道上运行。团队运行设计基准和复杂任务评估以获得结构化 picture,但同时也执行他们所谓的”直觉检查”——工程师用新模型构建应用程序,感受它在哪里更强、哪里会出问题。
“这总是一场发现新粗糙边缘的比赛,”Alexandre Pesant 说。
他自己的压力测试是一个涉及复杂地铁映射和行程逻辑的Side Project,他之前用前几个模型尝试过但碰壁了。使用 Opus 4.6 并将最大努力调高后,模型推动超越了他预期会停滞的点。
“我有点知道什么时候事情不会成功或者我们是否触及了极限,”他说。”它走得比其他模型更远。”他还注意到了一个更广泛的转变:凭借模型在 Lovable 内部使用浏览器并自行测试的能力,”你可以感受到自主性的差异”。
另一端的体验
当早期访问结束时,团队对他们所拥有的一切都了然于心。我们交谈过的每个团队都回到了同一个观点:与模型的关系正在发生变化。
“Opus 4.6 在第一次尝试时就诊断出了我们用前几个模型五次以上尝试都未能修复的 bug。推理深度的提升是真实存在的。”
— Garrett Serviss, bolt.new 营销副总裁
“对我来说,Opus 4.6 是 Anthropic 的第一个模型,在日常工作中感觉像真正的协作者。我可以交给模型的任务时间范围在持续增长。”
— Ben Lafferty, Shopify 资深工程师
“Claude Opus 4.6 提升了设计质量。它更加自主,这是 Lovable 价值观的核心。人们应该创造有意义的事情,而不是微观管理 AI。”
— Fabian Hedin, Lovable 联合创始人
反馈循环的力量
当然,并非所有反馈都是光鲜亮丽的,而这正是重点。早期测试者直接影响 Anthropic 最终发布的模型版本。整个过程之所以有效,是因为团队对无效之处的坦率程度与对有效之处一样,而且他们知道这种坦率确实会产生作用。
Paulo Arruda 在 Shopify 表示:”我们有机会塑造我们工程组织将使用的工具的未来。我们不是被动的测试者——我们是开发的合作伙伴。当我们识别出问题或模式时,Anthropic 会倾听并迭代。”
关键要点总结
1. 基准测试与实际感受的双重验证
- Harvey BigLaw Bench: 90.2% 得分(首个破 90% 的 Anthropic 模型)
- 40% 任务获得满分
- 定性反馈与定量结果一致
2. 核心能力提升
- 推理深度: 能诊断多次尝试未解决的复杂 bug
- 指令遵循: 显著改进,减少反馈迭代
- 预期能力: 能预测用户下一步需求并主动完成
- 自主性: 能够使用浏览器自行测试
3. 早期测试流程
- 专用沟通渠道(如 Slack 频道)
- 避免早期偏见(不共享初始印象)
- 双轨测试:自动化基准 + 人工”直觉检查”
- 用最困难的问题首先测试模型
4. 用户关系转变
- 从”被动测试者”到”开发合作伙伴”
- 任务时间范围持续增长
- 用户开始对 AI 说”你完全正确”
个人评价
这篇文章揭示了 Anthropic 模型发布流程中鲜为人知的一面,展示了企业级 AI 产品开发的严谨性。几个关键点值得注意:
测试方法的成熟度:四家测试公司采用了不同但互补的方法。bolt.new 避免早期偏见的方式、Harvey 结合专业律师和基准测试、Shopify 的迭代规划循环、Lovable 的双轨测试,都体现了成熟的评估框架。这种多元化的测试策略能够从多个维度全面评估模型能力。
90% 基准分数的意义:Harvey 的 BigLaw Bench 是法律 AI 领域的重要基准,90.2% 的得分标志着 Anthropic 模型在专业领域应用上的重大突破。更重要的是,定性反馈(”像真的在思考”)与定量结果一致,说明分数不是过拟合的产物。
自主性的提升:多个测试者提到模型自主性的增强——能够使用浏览器自行测试、预测用户下一步需求。这指向了 AI 从”工具”向”协作者”转变的趋势,是构建真正有用 AI 助手的关键一步。
反馈闭环的价值:早期测试者不仅是被动接受者,而是主动参与塑造产品。这种”我们不是被动测试者——我们是开发的合作伙伴”的关系,建立了健康的生态系统,确保产品真正满足用户需求。
对中国开发者的启示:对于正在构建 AI 应用的中国开发者和企业,这篇文章展示了如何系统性地评估和集成新模型。建立自己的基准测试体系、结合定量和定性评估、保持与模型提供商的反馈沟通,都是在 AI 时代保持竞争力的关键能力。
总的来说,Claude Opus 4.6 的早期测试结果显示出 AI 模型在企业级应用场景中的持续进步,特别是推理深度和自主性的提升,为构建更复杂、更可靠的 AI 应用奠定了基础。
本文内容翻译并整理自 Claude.com Blog 官方博客原文。