又一巨头推出其最强大模型，赶超OpenAI和谷歌
+ 查看更多

公司估值已达610亿美元。

Sharon Goldman，Beatrice Nolan

■

上周四，在旧金山举办的首届开发者大会上，人工智能初创公司Anthropic发布了最新一代“前沿”或尖端人工智能模型Claude Opus 4和Claude Sonnet 4。这家估值超610亿美元的公司在一篇博文中表示，备受期待的新模型Opus是“全球最佳编码模型”，能够“在需要持续专注且涉及数千步骤的长期任务中保持稳定性能”。由新模型驱动的人工智能代理可对数千个数据源展开分析，并执行复杂操作。

此次发布凸显了科技公司在“全球最先进人工智能模型”领域的角逐之激烈——尤其在软件工程等领域——各企业纷纷采用新技术来提升速度与效率，谷歌上周推出的实验性研究模型Gemini Diffusion便是例证。在一项对比不同大型语言模型软件工程任务表现的基准测试中，Anthropic的两款模型击败了OpenAI的最新模型，而谷歌的最佳模型则表现落后。

部分早期测试者已通过实际任务体验新模型。该公司举例称，购物奖励公司乐天株式会社（Rakuten）的人工智能总经理表示，Opus 4在部署到一个复杂项目后“自主编码近七小时”。

Anthropic技术团队成员黛安·佩恩（Dianne Penn）告诉《财富》杂志：“这实际上是人工智能系统能力的重大飞跃。”尤其是当模型从“助手”角色升级为“代理”（即能自主为用户执行任务的虚拟协作者）时。

她补充道，Claude Opus 4 增添了若干新功能，例如能更精准地执行指令，且在“记忆”能力上实现了提升。佩恩提到，从过往情况来看，这些系统难以记住所有历史操作，但此次“特意开发了长期任务感知能力”。该模型借助类似文件系统的机制来追踪进度，并策略性地调用记忆数据以规划后续步骤，如同人类会依据现实状况调整计划与策略。

两款模型均可在推理与工具调用（如网页搜索）之间切换，还能同时使用多种工具（如同步搜索网页并运行代码测试）。

Anthropic人工智能平台产品负责人迈克尔·格斯特恩哈伯（Michael Gerstenhaber）表示：“我们确实视此为一场向巅峰进发的竞赛。我们希望确保人工智能能造福所有人，因此要给所有实验室施加压力，促使其以安全的方式推动人工智能发展。”他解释称，这包括展示公司自身的安全标准。

Claude 4 Opus所推出的安全协议，其严格程度远超以往任何一款Anthropic模型。该公司的《负责任扩展政策》（RSP）作为一项公开承诺，最初于2023年9月发布，其中明确规定：“除非实施可将风险控制在可接受范围内的安全与保障措施，否则不会训练或部署可能引发灾难性伤害的模型。”Anthropic由OpenAI前员工于2021年创立，他们担忧OpenAI过于追求速度与规模，而忽略了安全与治理。

2024年10月，该公司对《负责任扩展政策》进行更新，采用“更为灵活且细致的方法来评估和管理人工智能风险”，同时坚持承诺，即除非已实施充分的保障措施，否则不会训练或部署模型。”

截至目前，Anthropic的所有模型均依照其《负责任扩展政策》被归为人工智能安全等级2（以下简称ASL-2），该等级“为人工智能模型设定了安全部署与模型安全的基础标准”。Anthropic发言人表示，公司并未排除新模型 Claude Opus 4达到ASL-2门槛的可能性，不过，公司正积极依据更为严格的ASL-3安全标准推出该模型——该标准要求强化防范模型被盗用和滥用的保护措施，涵盖构建更强大的防御机制，以杜绝有害信息泄露或防止对模型内部“权重”的访问。

根据Anthropic的《负责任扩展政策》，被归入该公司第三安全等级的模型达到了更为危险的能力阈值，其功能强大到足以构成重大风险，比如协助武器开发或实现人工智能研发自动化。Anthropic证实，Opus 4无需最高等级的保护措施，即ASL-4。

Anthropic的一位发言人表示：“我们在推出上一款模型Claude 3.7 Sonnet时，便已预料到可能会采取此类措施。当时我们认定该模型无需遵循ASL-3等级的保护措施。但我们也承认，鉴于技术进步之迅速，不久的将来，模型可能需要更严格的保护措施。”

在Claude 4 Opus即将发布之际，她解释称，Anthropic主动决定依据ASL-3标准推出该产品。“此举使我们能在需求产生之前，专注于开发、测试并完善这些保护措施。依据我们的测试结果，已排除该模型需要ASL-4等级保护措施的可能性。”不过，公司并未说明升级至ASL-3标准的具体触发缘由。

Anthropic历来会在产品发布之际，同步推出模型或“系统卡片”，提供有关模型能力及安全评估的详细信息。佩恩向《财富》杂志透露，Anthropic将在新推出Opus 4和Sonnet 4时发布对应的模型卡片，发言人也证实卡片会与模型一同发布。

近期，OpenAI和谷歌等公司均推迟发布模型卡片。今年4月，OpenAI因在发布GPT-4.1模型时未附带模型卡片而遭受批评，该公司称该模型并非“前沿”模型，无需提供卡片。今年3月，谷歌在Gemini 2.5 Pro发布数周后才公布其模型卡片，人工智能治理专家批评其内容“贫乏”且“令人担忧”。

■