改进 Skill Creator：测试、衡量和优化 Agent Skills

Posted on 三月 6, 2026

改进 Skill Creator：测试、衡量和优化 Agent Skills

来源: Claude.com Blog
发布日期: 2026-03-06
类型: 产品更新

概述

2026 年 3 月 3 日，Anthropic 宣布了对 Claude Code Skill Creator（技能创建器）的重大升级。此次更新将软件开发的严谨性（测试、基准测试、迭代改进）引入了技能创作流程，同时无需用户编写任何代码。

自 2025 年 10 月推出 Agent Skills（智能体技能）以来，Anthropic 发现大多数技能创作者是领域专家而非工程师。他们精通自己的工作流程，但缺乏工具来判断：技能在新模型上是否仍然有效、是否在适当时机触发、编辑后是否真正改进。

新的 Skill Creator 提供了三大核心功能：Evals 评估系统用于编写测试并验证技能行为、基准测试模式追踪通过率/耗时/Token 用量、多智能体并行支持实现独立的 A/B 测试。此外，新增了技能描述优化工具，通过分析样本提示词来减少误触发和漏触发。

这些更新现已在 Claude.ai、Cowork 平台上线，同时作为插件提供给 Claude Code 用户。

本文内容翻译自 Claude.com Blog 官方博客，包含完整原文翻译及关键要点分析。

核心内容

Skill Creator 的新功能

Skill Creator 现在帮助创作者编写评估测试（evals）、运行基准测试，并在模型演进过程中保持技能正常工作。这些更新现已在 Claude.ai 和 Cowork 上线，同时作为 Claude Code 的插件提供，也可从官方仓库下载。

两种技能类型

技能通常分为两类：

能力增强型技能（Capability Uplift Skills）：帮助 Claude 完成基础模型无法完成或无法一致完成的任务。文档创建技能就是很好的例子。它们编码了技术和模式，能够产生比单纯提示更好的输出。

编码偏好型技能（Encoded Preference Skills）：记录工作流程，其中 Claude 已经能够完成每个步骤，但技能按照团队流程将它们串联起来。例如：根据既定标准审查 NDA（保密协议）的技能，或从各种 MCP（模型上下文协议）获取数据起草周报的技能。

这种区分很重要，因为两类技能的测试目的不同：

能力增强型技能可能随着模型改进而变得不那么必要。评估测试可以告诉你何时发生了这种情况。
编码偏好型技能更持久，但只有与真实工作流程的保真度一致时才有价值。评估测试验证这种保真度。

无论哪种情况，测试都将一个”看似”有效的技能转变为”确定”有效的技能。

使用评估测试（Evals）来测试和改进技能

Skill Creator 现在帮助你编写评估测试（evals），这是用于检查 Claude 在给定提示词下是否按预期执行的测试。如果你写过软件测试，这会感觉很熟悉：定义一些测试提示词（必要时加上文件），描述什么是好的输出，Skill Creator 会告诉你技能是否经得起考验。

例如，PDF 技能曾经在处理非可填写表单时遇到困难。Claude 必须在没有定义字段引导的情况下将文本放置在精确坐标上。评估测试隔离了问题，团队发布了修复方案，将定位锚定到提取的文本坐标上。

评估测试有多种用途，其中两个重要用途是：

1. 捕获质量回归

随着模型及其周边基础设施的演进，上个月表现良好的技能今天可能行为不同。对新模型运行评估测试可以在问题影响团队工作之前提供早期信号。

2. 了解模型何时超越技能

这主要适用于能力增强型技能。如果基础模型在未加载技能的情况下开始通过评估测试，这表明技能的技术可能已被纳入模型的默认行为中。技能没有坏，只是不再必要。

基准测试模式

新增了基准测试模式，使用评估测试运行标准化评估。你可以在模型更新后或迭代技能本身时运行此模式。它追踪：

评估通过率
耗时
Token 用量

评估测试结果由你保管。可以存储在本地、集成到仪表板，或接入 CI 系统。

多智能体支持的更快、更一致的评估

顺序运行评估测试可能很慢，累积的上下文可能在测试之间产生干扰。Skill Creator 现在通过多智能体支持启动独立的智能体并行运行评估测试——每个智能体在干净的上下文中运行，拥有自己的 Token 和时序指标。结果更快，无交叉污染。

比较器智能体用于 A/B 测试

新增了比较器智能体进行 A/B 对比：两个技能版本，或技能与无技能的对比。它们在不知道来源的情况下评判输出，因此你可以判断变更是否真正有效。

让技能在正确时机触发

评估测试衡量输出质量，但这只有在技能在适当时机触发时才有意义。随着技能数量增长，描述精确性变得至关重要：太宽泛会导致误触发，太狭窄则永不触发。

Skill Creator 现在帮助调整描述以实现更可靠的触发——它分析当前描述与样本提示词，并建议减少误报和漏报的编辑方案。

在文档创建技能上运行此功能后，6 个公开技能中有 5 个的触发效果得到改善。

展望未来

随着模型改进，”技能”和”规范”之间的界限可能变得模糊。今天，SKILL.md 文件本质上是一个实现计划，提供详细说明告诉 Claude如何做某事。随着时间推移，关于技能应该做什么的自然语言描述可能就足够了，模型会自行推断其余部分。

今天发布的评估框架是朝着这个方向迈出的一步。评估测试已经描述了”做什么”。最终，这种描述可能就是技能本身。

关键要点总结

功能	说明
Evals 评估系统	编写测试验证技能行为，捕获质量回归
基准测试模式	追踪通过率、耗时、Token 用量
多智能体并行	独立上下文运行，避免交叉污染
A/B 比较器	盲测对比两个技能版本
描述优化	分析样本提示词，减少误触发/漏触发

技能类型对比

类型	特点	测试目的
能力增强型	做模型不能/不一致做的事	检测何时被模型超越
编码偏好型	按团队流程串联已有能力	验证与真实流程的保真度

个人评价

此次 Skill Creator 的更新标志着 Anthropic 在降低 AI 应用开发门槛方面迈出了重要一步。将软件测试的理念引入技能创作，无需编码即可实现测试、基准测试和迭代改进，这是一个非常实用的方向。

值得肯定的几点：

降低测试门槛：传统软件开发中，编写测试需要编程技能。Skill Creator 让领域专家（非工程师）也能创建和运行测试，这大大扩展了能够构建可靠 AI 应用的人群。
前瞻性设计：评估框架考虑到模型演进的因素，能够检测技能何时被基础模型超越。这反映了 Anthropic 对 AI 快速发展节奏的深刻理解。
工程化思维：多智能体并行测试、A/B 比较器、CI 集成等设计，都是将成熟软件工程实践引入 AI 技能开发的体现。

潜在挑战：

评估标准的主观性：与传统软件测试不同，AI 输出的”正确性”往往难以精确定义。如何编写有效的评估测试本身可能需要学习曲线。
技能描述的平衡：触发描述的精确度调优需要经验，太宽或太窄都会影响用户体验。

总体评价：这次更新为 AI 技能开发引入了必要的工程严谨性，是构建可信赖企业级 AI 应用的重要基础设施。随着模型能力提升，”技能”可能逐渐演变为”规范”，这是 AI 自然语言编程能力成熟的必然趋势。

开始使用

所有 Skill Creator 更新现已在 Claude.ai 和 Cowork 上线。请求 Claude 使用 Skill Creator 即可开始。

Claude Code 用户可以安装插件或从官方仓库下载。

参考链接：