动态过滤改进网页搜索:更准确高效的信息获取
来源: Claude.com Blog
发布日期: 2026 年 2 月 17 日
类型: 产品公告
阅读时间: 5 分钟
类别: 产品公告 | Claude 开发者平台
概述
Anthropic 在发布 Claude Opus 4.6 和 Sonnet 4.6 模型的同时,推出了全新的网页搜索(web search)和网页抓取(web fetch)工具升级版本。此次更新的核心创新在于**动态过滤(Dynamic Filtering)**技术——Claude 现在能够在网页搜索过程中原生地编写并执行代码,在搜索结果加载到上下文窗口之前对其进行过滤处理。
传统的基础网页搜索工具需要代理(Agent)执行以下步骤:发起查询、将搜索结果拉取到上下文中、从多个网站获取完整的 HTML 文件,然后进行推理并最终响应。然而,从搜索中拉取的上下文内容往往包含大量无关信息,这严重降低了响应质量。网页搜索是一个高度消耗 token 的任务,如何在保证准确性的同时提高效率,一直是 AI 搜索领域面临的核心挑战。
动态过滤技术通过自动编写和执行代码来后处理查询结果,从根本上改变了这一工作流。Claude 不再需要推理完整的 HTML 文件,而是能够在加载到上下文之前动态过滤搜索结果,仅保留相关内容,丢弃无关信息。这项技术此前已在其他代理工作流中验证了其有效性,现在通过代码执行(code execution)和程序化工具调用(programmatic tool calling)等原生 API 支持,被正式应用到网页搜索和网页抓取工具中。
根据官方在 BrowseComp 和 DeepsearchQA 两个基准测试上的评估结果,动态过滤技术使 Claude 的平均性能提升了 11%,同时减少了 24% 的输入 token 消耗。这一显著改进对于需要处理大量网络信息的企业用户和开发者而言,意味着更高的准确性和更低的运营成本。
核心技术原理
动态过滤如何工作
动态过滤的核心机制在于让 Claude 在搜索过程中扮演”研究者”的角色,而非简单的信息检索器。具体工作流程如下:
- 查询执行:Claude 首先执行标准的网页搜索查询
- 代码生成:根据查询需求,Claude 自动生成 Python 代码来解析和过滤结果
- 代码执行:在沙箱环境中执行生成的代码
- 结果过滤:代码过滤掉无关内容,仅保留与查询高度相关的信息
- 上下文加载:将过滤后的精简结果加载到上下文窗口
- 推理响应:基于精炼后的信息进行推理并生成最终响应
这种方法的关键优势在于,它将大量的原始 HTML 内容在加载到昂贵的上下文窗口之前就进行了处理,显著降低了 token 消耗,同时提高了信息的相关性和准确性。
技术基础
动态过滤技术依赖于以下几个核心技术组件:
- 代码执行沙箱:提供安全的环境供代理在对话过程中运行代码
- 程序化工具调用:允许在代码中执行复杂的多工具工作流
- 工具搜索:动态发现大型工具库中的工具,无需将所有定义加载到上下文窗口
- 工具使用示例:在工具定义中直接提供示例调用,减少参数错误
性能评估
BrowseComp 基准测试:搜索单一答案
BrowseComp 是一个测试代理能否在多个网站之间导航,找到特定信息的基准测试。这些信息被刻意设计为在网上难以查找。
测试结果:
| 模型 | 无动态过滤 | 有动态过滤 | 提升幅度 |
|---|---|---|---|
| Sonnet 4.6 | 33.3% | 46.6% | +13.3% |
| Opus 4.6 | 45.3% | 61.6% | +16.3% |
动态过滤显著提高了 Claude 在此类任务上的准确性。对于 Opus 4.6 模型,准确率从 45.3% 提升至 61.6%,这一改进在复杂搜索场景中具有实际应用价值。
DeepsearchQA 基准测试:搜索多个答案
DeepsearchQA 向代理呈现具有多个正确答案的研究查询,所有答案都必须通过网页搜索找到。该测试评估代理是否能够系统地规划和执行多步骤搜索,而不遗漏任何答案。
测试采用 F1 分数 作为评估指标,该指标平衡了精确率(precision)和召回率(recall),同时捕捉返回答案的准确性和搜索的完整性。
测试结果:
| 模型 | 无动态过滤 | 有动态过滤 | 提升幅度 |
|---|---|---|---|
| Sonnet 4.6 | 52.6% | 59.4% | +6.8% |
| Opus 4.6 | 69.8% | 77.3% | +7.5% |
在多答案搜索场景中,动态过滤同样展现了稳定的性能提升。值得注意的是,Opus 4.6 在此基准测试上已经达到了 77.3% 的 F1 分数,表明其在系统性信息收集任务上的成熟度。
Token 成本分析
Token 成本会因模型过滤上下文所需编写的代码量而有所不同:
- Sonnet 4.6:在两个基准测试上,价格加权 token 均有所减少
- Opus 4.6:在某些场景下 token 使用量有所增加
官方建议开发者针对其代理在生产环境中可能遇到的代表性网页搜索查询集进行评估,以更准确地了解自身成本情况。
客户案例:Quora Poe 平台
Poe 是由 Quora 运营的大型多模型 AI 平台之一,通过单一接口为数百万用户提供超过 200 个模型的访问权限。
Quora 内部团队在产品评估中发现:
“Opus 4.6 与动态过滤结合使用,在我们针对其他前沿模型的内部评估中实现了最高的准确性。”
“该模型的行为就像一个真正的研究员,会编写 Python 代码来解析、过滤和交叉引用结果,而不是在上下文中推理原始 HTML。”
—— Gareth Jones,Quora 产品与研究负责人
这一客户案例验证了动态过滤技术在实际生产环境中的价值。对于 Poe 这样需要处理海量用户查询的平台而言,准确性和效率的提升直接转化为用户体验和运营成本的优化。
API 使用指南
启用动态过滤
当在 Claude API 上使用 Sonnet 4.6 和 Opus 4.6 调用新的网页搜索和网页抓取工具时,动态过滤将默认启用。对于复杂的网页搜索查询(如筛选技术文档或验证引用),可以预期获得与上述基准测试类似的性能提升。
代码示例
以下是使用新版网页搜索工具的 API 调用示例:
1 | { |
在此示例中,Claude 将:
- 使用
web_search_20260209工具搜索 AAPL 和 GOOGL 的当前股价 - 使用
web_fetch_20260209工具获取相关财务数据 - 自动编写代码过滤和解析获取的信息
- 计算并比较两者的市盈率(P/E ratio)
其他工具正式发布
除了动态过滤功能外,Anthropic 还将多个工具提升为**正式发布(General Availability)**状态,以帮助代理在 token 密集型任务中表现更佳:
1. 代码执行(Code Execution)
- 提供沙箱环境供代理在对话过程中运行代码
- 用于过滤上下文、分析数据或执行计算
- 安全隔离的执行环境
2. 记忆(Memory)
- 通过持久化文件目录在对话之间存储和检索信息
- 代理可以保留上下文而无需将所有内容保留在上下文窗口中
- 支持长期任务的状态管理
3. 程序化工具调用(Programmatic Tool Calling)
- 在代码中执行复杂的多工具工作流
- 将中间结果排除在上下文窗口之外
- 减少 token 消耗
4. 工具搜索(Tool Search)
- 从大型工具库中动态发现工具
- 无需将所有工具定义加载到上下文窗口
- 适用于拥有大量可用工具的场景
5. 工具使用示例(Tool Use Examples)
- 在工具定义中直接提供示例调用
- 演示使用模式
- 减少参数错误
关键要点总结
| 要点 | 详情 |
|---|---|
| 核心技术 | 动态过滤通过代码执行在上下文加载前过滤搜索结果 |
| 性能提升 | 平均性能提升 11%,输入 token 减少 24% |
| 适用模型 | Claude Sonnet 4.6 和 Opus 4.6 |
| 默认状态 | 在新版网页搜索和抓取工具上默认启用 |
| 基准测试 | BrowseComp(单一答案)和 DeepsearchQA(多答案) |
| 客户验证 | Quora Poe 平台验证了实际生产环境的价值 |
| 相关工具 | 代码执行、记忆、程序化工具调用等同时正式发布 |
个人评价与分析
技术意义
动态过滤技术的推出代表了 AI 代理工作流设计思路的重要转变。传统的 RAG(检索增强生成)系统通常采用”检索 - 加载 - 推理”的线性流程,而动态过滤引入了”检索 - 过滤 - 加载 - 推理”的分层处理模式。这种转变的核心价值在于:
成本控制:在 token 成本仍然是 AI 应用主要运营成本的背景下,24% 的输入 token 减少对于高频搜索场景而言是显著的 cost saving。
质量提升:通过过滤无关信息,减少了”注意力稀释”问题,使模型能够更专注于相关信息,从而提高了回答准确性。
可扩展性:对于需要处理大规模网络信息的场景(如市场调研、竞品分析、学术综述),动态过滤使得更长周期、更复杂的研究任务变得可行。
实际应用价值
从 Quora Poe 的案例可以看出,动态过滤技术的价值在以下场景尤为突出:
- 金融数据分析:如示例中展示的股价和市盈率比较,需要实时获取并精确计算
- 学术研究:系统性文献检索和信息整合
- 技术调研:跨多个技术文档的信息验证和对比
- 市场分析:竞品信息收集和整理
潜在局限
尽管动态过滤带来了显著改进,但以下几点值得注意:
- 代码生成依赖性:过滤效果依赖于模型生成正确过滤代码的能力,在极端复杂场景下可能仍需人工介入
- 成本波动:Opus 4.6 在某些场景下 token 使用量不降反升,建议开发者进行针对性评估
- 延迟考虑:代码生成和执行环节会增加响应时间,对于实时性要求极高的场景需要权衡
对开发者的建议
- 充分评估:使用代表性查询集评估性能和成本,不要仅依赖官方基准数据
- 场景适配:对于简单查询,可能无需启用动态过滤;复杂场景则应充分利用
- 监控优化:持续监控 token 使用和准确率,根据实际效果调整策略
开始使用
改进后的网页搜索和网页抓取功能,以及代码执行、记忆、程序化工具调用、工具搜索和工具使用示例,现已在 Claude 开发者平台上可用。
相关资源:
本文内容翻译并整理自 Claude.com Blog 官方公告,原文发布于 2026 年 2 月 17 日。