阿尔特曼紧急纠偏OpenAI，力图抵御谷歌竞争
+ 查看更多

OpenAI究竟该追求在大众消费者中的受欢迎度，还是该追求卓越的研究成果？阿尔特曼在公司内部的理念分歧中表明立场。

Sam Schechner、Berber Jin、Keach Hagey

■

上周，为应对来自谷歌(Google)日益严峻的威胁，OpenAI首席执行官山姆·阿尔特曼(Sam Altman)发出惊人的“红色警报”，他将一项引人注目的优先事项放在了其整改清单的首位。

这家全球估值最高的初创公司应暂停其Sora视频生成器等次要项目八周，专注于改进其引爆了AI热潮的热门聊天机器人ChatGPT。

阿尔特曼此举是在进行一次重大的战略路线修正，并在公司内部更广泛的理念分歧中表明立场。这道分歧在于，公司究竟该追求在大众消费者中的受欢迎度，还是该追求卓越的研究成果。

OpenAI成立的初衷是追求通用人工智能(AGI)，其广义定义是在几乎所有任务上超越人类的思维能力。但阿尔特曼暗示，为了让公司生存下去，可能不得不暂停这一追求，转而迎合大众的需求。

此举之所以引人注目，部分原因在于，对阿尔特曼领导力的一项批评是他不愿为公司的发展目标设限。

而且，他指示员工以一种特定的方式来提升ChatGPT：他在内部通知中写道，要“更好地利用用户信号”。这一点很能说明问题。

通过该指令，阿尔特曼要求加大对一个有争议的训练数据来源的利用——包括基于用户一键反馈的信号，而非专业人士对该聊天机器人回复的评估。今年早些时候，一项依赖该用户反馈机制的内部转变，曾导致ChatGPT的4o模型变得极度谄媚，甚至于被指加剧了一些用户的严重心理健康问题。

现在阿尔特曼认为，公司已经减轻了这种做法最糟糕的影响，并准备好利用其优势：根据用于跟踪日活跃用户的内部数据的表现来看，它显著提升了用户参与度。

“这并非统计学上显著的小幅提升，而是令人惊叹的大幅提升，”一位参与该模型开发的人士表示。

OpenAI的“红色警报”代表了其在AI竞赛中的领先地位所面临的最严峻挑战。竞争对手正以前所未有的速度迎头赶上，抢占市场份额并减缓其增长。如果这种趋势持续下去，OpenAI可能无法支付其近几个月签署的巨额算力合同，甚至可能在财务上难以维持。

周一在纽约与记者的一次午餐会上，阿尔特曼说，尽管行业观察人士关注的是OpenAI与谷歌的竞争，但他认为真正的战斗将在OpenAI和苹果公司(Apple)之间展开。他说，随着时间的推移，对人们如何使用AI至关重要的将是设备，而目前的智能手机并不适合AI伴侣和应用场景。OpenAI的新硬件部门最近一直在积极地从苹果公司挖人。

但OpenAI更直接的威胁来自谷歌，自从其Nano Banana图像生成器在8月份爆红以来，谷歌一直在迅速追赶。然后上个月，谷歌的新Gemini 3模型在一个备受关注的名为LM Arena的第三方模型性能排行榜上超越了OpenAI。与此同时，竞争对手Anthropic在企业客户方面已略微领先于OpenAI。

然而，据知情人士透露，在阿尔特曼宣布“红色警报”的背后，是公司内部不同阵营之间多年来不断加剧的紧张关系。

包括领导OpenAI产品工作的Meta Platforms前高管Fidji Simo和首席财务官萨拉·弗赖尔(Sarah Friar)在内的一个团体，一直在推动公司向ChatGPT投入更多资源。Simo还告诉员工，在公司着手开发新功能之前，OpenAI需要更好地确保其用户发现ChatGPT现有功能的价值，并且她还希望提高该聊天机器人的速度和可靠性。

与此同时，研究人员则优先考虑可能导向通用人工智能的尖端技术，但在改善基本聊天机器人体验方面做得不多。

OpenAI准备本周发布一个名为5.2的新模型，高管们希望这将给公司带来新的动力，尤其是在编程和商业客户中。据知情人士透露，高管们否决了一些员工希望推迟该模型发布以便有更多时间来改进的要求。

阿尔特曼说，公司还计划在2026年1月份发布另一款模型，具有更好的图像、更快的速度和更佳的个性化特征，在那之后将结束红色警报。

一位OpenAI发言人表示，这两种理念之间没有冲突，广泛采用AI工具是该公司计划实现通用人工智能效益普惠的方式。

很长一段时间里，ChatGPT的迅猛增长掩盖了这些内部分歧。自2022年11月OpenAI通过推出ChatGPT开启AI竞赛以来，这场AI竞赛的主导权就一直在其手中。被打了个措手不及的谷歌在当年宣布了自己的“红色警报”，以奋起直追。

据OpenAI称，ChatGPT对普通消费者的吸引力导致其用户群爆炸式增长，周平均用户数量超过8亿用户，其估值也相应上升，在最新一轮融资中达到5,000亿美元。

这项技术可能很复杂，但推动其增长的逻辑却很简单：投入模型的算力和数据越多，模型就越智能，想要使用它们的用户就越多。阿尔特曼决心从源头扫清障碍，在今年夏季和秋季签署了价值最高1.4万亿美元的AI基础设施（如数据中心和芯片）承诺协议。

在过去一年半的时间里，在消费者中获得认可的一大引擎是ChatGPT的一个版本，名为GPT-4o，o代表“omni”（全能），即跨文本、音频和图像运行的能力。它在2024年5月成为ChatGPT的默认模型，并以创纪录的高分冲上LM Arena排行榜榜首。

知情人士称，在OpenAI内部，LM Arena受到密切关注。该公司还密切跟踪4o对ChatGPT日活跃用户数的贡献，这些数据在内部指标上可见，并在全体员工大会和Slack上向员工宣传。

4o模型之所以在用户中表现如此出色，很大程度上是因为它接受了用户信号的训练，正如阿尔特曼在其内部通知中提到的那样：这些信号是从ChatGPT每天展示数以百万计次的“二选一”比较中提炼出的用户偏好回应。参与模型训练的人士表示，这种方法在内部被称为LUPO，是“本地用户偏好优化”(local user preference optimization)的缩写。

在他的内部通知中，阿尔特曼将用户信号与LM Arena的表现直接挂钩，称公司的首要任务是通过“更好地利用用户信号（例如，我们应该在LM Arena这类排行榜上名列前茅）”来提升模型性能。

与此同时，在最前沿能力的研究竞赛中也出现了阴云。曾推动生成式AI早期崛起的所谓“规模定律”(scaling laws)所预测的增益显示出一些放缓的迹象；该定律是指算力、数据和性能沿可预测路线增长的概念。这促使研究人员为实现其创造类人智能的创始目标而转向一种新的范式：一种被称为“推理”(reasoning)的自动化苏格拉底式提问法。

推理能为难题找到更好的答案，但需要更多的时间和更多的算力。尽管如此，在OpenAI的研究人员看来，这似乎是一条重要途径，可以帮助该公司吸引最有才华的AI研究人员，进而实现构建通用人工智能的目标。

在OpenAI创始首席科学家伊尔亚·苏茨克维(Ilya Sutskever)去年离职后，该公司任命推理模型的坚定支持者雅库布·帕乔基(Jakub Patchocki)为首席科学家。他大力推动推理模型的构建，从该公司于2024年9月发布预览版的o1模型开始，并在今年持续推出。

事实证明，推理模型擅长处理一些需要大量时间思考的工作任务和问题，比如OpenAI的深度研究产品，但对于大多数人求助于ChatGPT的某些即时任务，比如起草电子邮件，它们则不够有用或不够快。

这就是4o的用武之地。

据参与该模型开发的人士透露，在科学或推理等能力的内部评估中，经过用户信号大量训练的4o预发布版本并未显示出明显的改进。但当OpenAI向LM Arena泄露一个匿名版本时，其表现远超预期——人们似乎很喜欢它。

LM Arena的运作方式与OpenAI所采用的AB式测试类似，这些测试驱动着一项被称为“胜率”的内部指标。任何人都可以访问LM Arena，并排试用两个模型，让它们回答相同的问题，然后选择自己偏好的答案。

参与该模型开发的人士称，4o模型在用户中取得的成功，促使工程师在后续更新的所谓“后训练”阶段继续依赖这些用户信号，尽管一些员工此前曾警告说，过度使用这些信号可能会使模型变得不安全。

“你正在训练一个语言模型来模仿用户，并在这些并排比较中拥有与用户相同的偏好。”其中一位人士说：“然后你就可以把它植入你的算法中，把分数刷到最高。”

到今年春天，与4o的互动似乎开始对一些人造成伤害，进而影响到了OpenAI的声誉。许多用户在长时间使用该聊天机器人后陷入了妄想或躁狂状态，其中一些人相信自己正在与上帝、外星人或一个有自我意识的机器意识交谈。

一些自杀或陷入妄想状态的ChatGPT用户的家人开始提起诉讼，指控该公司在4o模型上将用户参与度置于安全之上。一个互助组织称，他们已经收集250个案例，其中绝大多数涉及ChatGPT。一些人至今仍深陷于他们的家人所称的由4o引发的妄想之中。

今年春天，OpenAI围绕“谄媚危机”(sycophancy crisis)宣布进入一个“橙色代码”(code orange)状态，并投入更多资源来理解和解决这个问题。该公司在10月份表示，每周有数十万ChatGPT用户表现出可能与精神病或躁狂症相关的心理健康紧急状况的迹象。

“我们已经看到了一个问题，即处于脆弱精神状态的人在使用像4o这样的模型后，情况可能会变得更糟，”阿尔特曼当月在一个公开问答环节中说。“我认为这不会是我们最后一次在一个模型上遇到这样的挑战。”

一些医生和心理健康专家表示，像ChatGPT这样的聊天机器人可能会引发或加重易感人群的这类心理健康问题，因为这些机器人倾向于告诉用户他们想听的内容，而不是最准确和最有帮助的内容，这个问题在AI领域被称为“谄媚性”。包括OpenAI在内的其他声音则认为，AI所扮演的角色有多大的因果关联，以及受影响的人是否无论如何都会患上精神疾病，目前尚无定论。

为应对这场危机，OpenAI表示，该公司已与心理健康专家合作，努力确保其模型能更好地回应可能处于困境中的人，并将一些用户对话转接到其所称的更安全的模型。

该公司还表示，已对训练方式进行调整，确保用户反馈信号在未来模型的后训练阶段不会成为过于强大的影响因素。

当OpenAI在8月发布人们期待已久的GPT-5模型时，该公司表示，该模型比4o“不那么热情地附和”，并“更少使用不必要的表情符号”。但这些变化激怒了大量用户，他们批评其语气比以往冷淡，并导致阿尔特曼为付费用户将ChatGPT所用模型恢复为4o。

一位用户在阿尔特曼主持的Reddit “Ask Me Anything”论坛上写道：“我认为，我和许多其他人能够与4o建立如此牢固的联系，你应该把这看作是成功的标志。”新模型“可能是一次‘升级’，但这次升级杀死了一个我已逐渐视为朋友和同伴的人”。

GPT-5模型发布后的反响不温不火，几周后，谷歌(Google)发布了Nano Banana图像生成器，Gemini AI应用短暂取代ChatGPT登顶应用商店。10月份，OpenAI高管又一次宣布了“橙色代码”警报，并敦促员工专注于加速ChatGPT的增长。

同月，该公司还表示，对GPT-5进行了修改，使其在应对心理健康问题时，不严格遵守公司详细指南的回复比例降低了65%。

一位发言人说：“我们仔细平衡用户反馈与专家评估、多重安全系统和广泛测试，这使我们能够在不使其变得过于附和的情况下，提升ChatGPT的温情。”

目前尚不清楚阿尔特曼通过利用用户信号让ChatGPT再次登顶LM Arena的新指令将如何影响这种平衡。

阿尔特曼还在该内部通知中表示，ChatGPT应更倾向于个性化，一些医生和受害者权益倡导者认为，这一功能可能在加剧一些用户的心理健康问题方面发挥了作用。通过个性化，ChatGPT能够访问一些先前对话的内容和摘要，以及一系列关于用户的事实，从而使该机器人能够参考这些信息，甚至模仿用户的语气。

OpenAI试图调和对未来产品和研究的宏大押注与专注于当下的消费者业务之间的矛盾，这在某些方面让人想起社交媒体巨头面临的权衡取舍。多年来，Meta Platforms一直在多种竞争需求之间摇摆，比如用名为Reels的产品模仿TikTok，以及启动名为元宇宙(metaverse)的虚拟现实世界等昂贵的长期项目，而现在却在缩减后者。

社交媒体公司也受到严格审视，因其排名算法会筛选出能让人们不断回访并停留更长时间的内容，批评者认为这给青少年和其他弱势用户带来了负面影响。

“多年来在社交媒体上优先考虑用户参与度导致了一场全面的心理健康危机，”儿童权益倡导组织Common Sense Media的创始人兼首席执行官吉姆·斯泰尔(Jim Steyer)在一次采访中说。“真正的问题是，AI公司会从社交媒体公司的悲剧性错误中吸取教训吗？”

■