xAI 发布 Grok 4 Fast: 性能比肩旗舰,成本降低 98%%

概述2025年9月19日,xAI 发布了 Grok 4 Fast,这是一个针对成本优化的推理模型,在保持与旗舰模型 Grok 4 相当性能的同时,将成本降低了 98%。通过平均减少 40% 的思考 token 使用量,Grok 4 Fast 在 LMArena 的文本竞技场中排名第 8,与 Grok 4 并驾齐驱,同时提供了业界最具竞争力的性价比。 核心优势极致的成本效率Grok 4 Fast 最大的突破在于其卓越的成本效率: 价格降低 98%: 相比 Grok 4,在前沿基准测试中达到相同性能所需的成本降低了 98% 思考 token 减少 40%: 平均使用的思考 token 比 Grok 4 少 40% Token 使用量优化: 在 Artificial Analysis Intelligence Index 中使用了 6100 万 tokens,显著少于 Gemini 2....

阅读全文

xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型

概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。 核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。 Grok 4 Heavy 的表现: Humanity’s Last Exam: 50.7%(首个突破 50% 的模型) 带工具使用: 44.4%(使用多个 AI 智能体协作) 相比之下,竞争对手的表现: G...

阅读全文

ReAct: 在语言模型中协同推理与行动

论文概述ReAct引入了一种范式,其中大型语言模型以交错的方式生成推理轨迹和特定任务的行动,在两种能力之间创造协同效应。推理轨迹帮助模型推导、跟踪和更新行动计划,同时处理异常情况,而行动允许它与外部源(如知识库或环境)交互以收集额外信息。这种方法克服了纯推理或纯行动方法的局限性,在可解释性和可信度方面取得了显著改进。 论文信息: 发布时间:2022-10-06 作者:Shunyu Yao, Jeffrey Zhao, Dian Yu等 机构:Princeton University, Google Research 研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术:推理与行动协同 (ReAct) 研究背景大型语言模型在各类任务中展现出强大的能力,但纯推理方法容易产生幻觉,而纯行动方法缺乏规划能力。本研究针对...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero