改进 Skill Creator:测试、衡量和优化 Agent Skills

改进 Skill Creator:测试、衡量和优化 Agent Skills

来源: Claude.com Blog
发布日期: 2026-03-06
类型: 产品更新

概述

2026 年 3 月 3 日,Anthropic 宣布了对 Claude Code Skill Creator(技能创建器)的重大升级。此次更新将软件开发的严谨性(测试、基准测试、迭代改进)引入了技能创作流程,同时无需用户编写任何代码。

自 2025 年 10 月推出 Agent Skills(智能体技能)以来,Anthropic 发现大多数技能创作者是领域专家而非工程师。他们精通自己的工作流程,但缺乏工具来判断:技能在新模型上是否仍然有效、是否在适当时机触发、编辑后是否真正改进。

新的 Skill Creator 提供了三大核心功能:Evals 评估系统用于编写测试并验证技能行为、基准测试模式追踪通过率/耗时/Token 用量、多智能体并行支持实现独立的 A/B 测试。此外,新增了技能描述优化工具,通过分析样本提示词来减少误触发和漏触发。

这些更新现已在 Claude.ai、Cowork 平台上线,同时作为插件提供给 Claude Code 用户。


本文内容翻译自 Claude.com Blog 官方博客,包含完整原文翻译及关键要点分析。

核心内容

Skill Creator 的新功能

Skill Creator 现在帮助创作者编写评估测试(evals)、运行基准测试,并在模型演进过程中保持技能正常工作。这些更新现已在 Claude.ai 和 Cowork 上线,同时作为 Claude Code 的插件提供,也可从官方仓库下载。

两种技能类型

技能通常分为两类:

能力增强型技能(Capability Uplift Skills):帮助 Claude 完成基础模型无法完成或无法一致完成的任务。文档创建技能就是很好的例子。它们编码了技术和模式,能够产生比单纯提示更好的输出。

编码偏好型技能(Encoded Preference Skills):记录工作流程,其中 Claude 已经能够完成每个步骤,但技能按照团队流程将它们串联起来。例如:根据既定标准审查 NDA(保密协议)的技能,或从各种 MCP(模型上下文协议)获取数据起草周报的技能。

这种区分很重要,因为两类技能的测试目的不同:

  • 能力增强型技能可能随着模型改进而变得不那么必要。评估测试可以告诉你何时发生了这种情况。
  • 编码偏好型技能更持久,但只有与真实工作流程的保真度一致时才有价值。评估测试验证这种保真度。

无论哪种情况,测试都将一个”看似”有效的技能转变为”确定”有效的技能。

使用评估测试(Evals)来测试和改进技能

Skill Creator 现在帮助你编写评估测试(evals),这是用于检查 Claude 在给定提示词下是否按预期执行的测试。如果你写过软件测试,这会感觉很熟悉:定义一些测试提示词(必要时加上文件),描述什么是好的输出,Skill Creator 会告诉你技能是否经得起考验。

例如,PDF 技能曾经在处理非可填写表单时遇到困难。Claude 必须在没有定义字段引导的情况下将文本放置在精确坐标上。评估测试隔离了问题,团队发布了修复方案,将定位锚定到提取的文本坐标上。

评估测试有多种用途,其中两个重要用途是:

1. 捕获质量回归

随着模型及其周边基础设施的演进,上个月表现良好的技能今天可能行为不同。对新模型运行评估测试可以在问题影响团队工作之前提供早期信号。

2. 了解模型何时超越技能

这主要适用于能力增强型技能。如果基础模型在未加载技能的情况下开始通过评估测试,这表明技能的技术可能已被纳入模型的默认行为中。技能没有坏,只是不再必要。

基准测试模式

新增了基准测试模式,使用评估测试运行标准化评估。你可以在模型更新后或迭代技能本身时运行此模式。它追踪:

  • 评估通过率
  • 耗时
  • Token 用量

评估测试结果由你保管。可以存储在本地、集成到仪表板,或接入 CI 系统。

多智能体支持的更快、更一致的评估

顺序运行评估测试可能很慢,累积的上下文可能在测试之间产生干扰。Skill Creator 现在通过多智能体支持启动独立的智能体并行运行评估测试——每个智能体在干净的上下文中运行,拥有自己的 Token 和时序指标。结果更快,无交叉污染。

比较器智能体用于 A/B 测试

新增了比较器智能体进行 A/B 对比:两个技能版本,或技能与无技能的对比。它们在不知道来源的情况下评判输出,因此你可以判断变更是否真正有效。

让技能在正确时机触发

评估测试衡量输出质量,但这只有在技能在适当时机触发时才有意义。随着技能数量增长,描述精确性变得至关重要:太宽泛会导致误触发,太狭窄则永不触发。

Skill Creator 现在帮助调整描述以实现更可靠的触发——它分析当前描述与样本提示词,并建议减少误报和漏报的编辑方案。

在文档创建技能上运行此功能后,6 个公开技能中有 5 个的触发效果得到改善。

展望未来

随着模型改进,”技能”和”规范”之间的界限可能变得模糊。今天,SKILL.md 文件本质上是一个实现计划,提供详细说明告诉 Claude如何做某事。随着时间推移,关于技能应该做什么的自然语言描述可能就足够了,模型会自行推断其余部分。

今天发布的评估框架是朝着这个方向迈出的一步。评估测试已经描述了”做什么”。最终,这种描述可能就是技能本身。

关键要点总结

功能 说明
Evals 评估系统 编写测试验证技能行为,捕获质量回归
基准测试模式 追踪通过率、耗时、Token 用量
多智能体并行 独立上下文运行,避免交叉污染
A/B 比较器 盲测对比两个技能版本
描述优化 分析样本提示词,减少误触发/漏触发

技能类型对比

类型 特点 测试目的
能力增强型 做模型不能/不一致做的事 检测何时被模型超越
编码偏好型 按团队流程串联已有能力 验证与真实流程的保真度

个人评价

此次 Skill Creator 的更新标志着 Anthropic 在降低 AI 应用开发门槛方面迈出了重要一步。将软件测试的理念引入技能创作,无需编码即可实现测试、基准测试和迭代改进,这是一个非常实用的方向。

值得肯定的几点:

  1. 降低测试门槛:传统软件开发中,编写测试需要编程技能。Skill Creator 让领域专家(非工程师)也能创建和运行测试,这大大扩展了能够构建可靠 AI 应用的人群。

  2. 前瞻性设计:评估框架考虑到模型演进的因素,能够检测技能何时被基础模型超越。这反映了 Anthropic 对 AI 快速发展节奏的深刻理解。

  3. 工程化思维:多智能体并行测试、A/B 比较器、CI 集成等设计,都是将成熟软件工程实践引入 AI 技能开发的体现。

潜在挑战:

  1. 评估标准的主观性:与传统软件测试不同,AI 输出的”正确性”往往难以精确定义。如何编写有效的评估测试本身可能需要学习曲线。

  2. 技能描述的平衡:触发描述的精确度调优需要经验,太宽或太窄都会影响用户体验。

总体评价:这次更新为 AI 技能开发引入了必要的工程严谨性,是构建可信赖企业级 AI 应用的重要基础设施。随着模型能力提升,”技能”可能逐渐演变为”规范”,这是 AI 自然语言编程能力成熟的必然趋势。

开始使用

所有 Skill Creator 更新现已在 Claude.ai 和 Cowork 上线。请求 Claude 使用 Skill Creator 即可开始。

Claude Code 用户可以安装插件或从官方仓库下载。


参考链接:

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero