谷歌如何找回了状态并反超OpenAI

在ChatGPT主导早期聊天机器人市场之后，谷歌凭借强大的AI模型强势回归，并对其搜索引擎进行多年来的最大改造。

Katherine Blunt

■

去年8月的一个凌晨，谷歌(Google)的一位人工智能(AI)项目经理把该公司旗下DeepMind实验室的最新成果上传到了一个对AI模型进行排名的平台上。

谷歌此前已在AI竞赛中落后，而该公司竞争对手OpenAI已通过其ChatGPT聊天机器人吸引了数以亿计的用户。谷歌的研究人员当时希望，一项新功能——一个快如闪电的图像生成器——能让这家搜索巨头在ChatGPT的一个薄弱领域上获得优势。

奈娜·赖辛哈尼(Naina Raisinghani)需要为这个新工具起个名字才能完成上传，她在谷歌内部以经常熬夜工作而闻名。不过，当时是凌晨2:30，周围没有人。于是她就随手编了一个，是朋友们给她起的两个昵称的混搭：Nano Banana。

几天之内，Nano Banana就在LM Arena平台的性能排行榜上占据了榜首位置，在X上成为热门话题，并远远超出了谷歌的使用预期。到去年9月份，谷歌的Gemini AI应用程序已成为苹果公司(Apple)应用商店中下载量最大的应用。

两个月后，谷歌推出了该公司迄今为止最强大的Gemini模型，该模型迅速超越竞争对手，成为功能最强大的AI聊天机器人。至此，这家Alphabet旗下的公司已一举超越OpenAI，跃居AI领域的领先地位。

谷歌在科学和研究领域的深厚根基、斥资数以十亿美元计的资金开发定制硬件的意愿，以及近年来为加快实验速度而进行的领导层变动，如今正显现成效。该公司还设法保护了其至关重要的搜索业务免受人气飙升的聊天机器人的冲击，至少目前是这样，此类机器人正在改变消费者使用互联网的方式。

通过搜索广告、面向消费者和企业的Gemini付费版本以及销售内部开发的新计算机芯片，谷歌的AI业务已开始创造可观的收入。谷歌去年11月发布的最新Gemini模型在多项指标上的表现优于ChatGPT，推动Alphabet的股价飙升，并在OpenAI内部触发了一个“红色警报”(Code Red)。此后，OpenAI推出了一个更强大的ChatGPT版本，缩小了差距，不过ChatGPT的用户数量仍远超谷歌的Gemini。

在新款Gemini模型发布当天，谷歌的首席执行官桑达·皮采(Sundar Pichai)盛赞了该公司在AI领域的推进力度。他在一份内部通知中对员工说：“很高兴看到我们正以谷歌级别的规模进行发布。”

2015年，当皮采升任谷歌最高职位时，AI还是一项计算机科学研究人员抱有浓厚兴趣、但其他人鲜少关注的技术。第二年，他宣布，这家以搜索引擎、地图和生产力工具为消费者所熟知的公司将全力投入AI。

在该公司博客上发布的一份备忘录中，皮采写道，过去十年是一个完全以智能手机为中心的世界。“但在未来10年，”他预测道，“我们将转向一个AI优先的世界，一个计算变得无处不在的世界。”

谷歌早已通过一个名为Google Brain的AI研究部门奠定了基础，该子公司由计算机科学家杰夫·迪恩(Jeff Dean)于2011年联合创立，他曾帮助开发了支撑当今大语言模型的神经网络技术。几年后，谷歌收购了总部位于伦敦的AI研究实验室DeepMind，其联合创始人是国际象棋神童杰米斯·哈萨比斯(Demis Hassabis)，他后来因在一项辅助生物分子研究的AI系统方面的工作而共同获得了诺贝尔奖(Nobel Prize)。

谷歌此前还开始了设计自身AI芯片的工作，此举在当时没有引起太多关注。谷歌认为，该公司需要更强大的计算能力来支持语音识别等应用。这些被称为张量处理单元(tensor-processing unit, 简称TPU)的芯片，其设计功耗低于计算机中的中央处理器或游戏显卡中的图形处理器。对谷歌和整个行业来说，这些芯片后来被证明是一个彻底改变行业格局的因素。

不过，该公司在早期开发自己的聊天机器人方面采取了谨慎的做法。该公司的一些高管和研究人员曾担心这种技术的安全性，因为它有可能产生不准确、有偏见或其他有问题的信息。

Google Brain的前员工朱莉娅·温(Julia Winn)说，聊天机器人最初并不被视为该公司整体AI抱负的核心，而且在早期模型的测试中，事实证明聊天机器人很容易被诱导给出种族主义或性别歧视的回答。

“对于这类风险，谷歌的重视程度远高于我工作过的任何地方，原因可以理解，”她说。这种谨慎态度让该公司的一些研究人员感到沮丧，其中一些人选择了离开。

2022年8月，谷歌推出了一款具有多种对话能力的聊天机器人模型，通过一款名为AI Test Kitchen的应用程序向有限数量的人提供，某种程度上算是一个试验场。谷歌将其命名为LaMDA，并允许用户测试三种功能：“想象一下”(Imagine It)、“列出来”(List It)和“聊聊它（狗狗版）”(Talk About It (Dogs Edition))，后者只允许用户进行仅关于狗的对话。

来自ChatGPT的挑战

三个月后，OpenAI向公众开放了ChatGPT，这也是该公司多年努力的成果，旨在打造一款不仅能进行对话，还能创作故事、笑话、计算机代码等的聊天机器人。

五天之内，就有100万人注册测试ChatGPT。与谷歌的LaMDA不同，用户在使用ChatGPT方面没有受到很大限制。

一些在这一技术上投入了数年时间的谷歌员工对被超越感到愤怒。另一些人则对公众与ChatGPT互动的速度之快感到震惊。

分析师和投资者当时想，谷歌是否正在错失科技界的下一波大潮。他们想知道该公司能以多快的速度推出自己的AI产品，以及聊天机器人的兴起是否会侵蚀谷歌的搜索和广告业务，后者在2022年带来2,540亿美元的收入。

谷歌的两位资深AI科学家迪恩和哈萨比斯，以及2022年加入的机器人专家詹姆斯·马尼卡(James Manyika)，共同致力于联合DeepMind和Brain子公司进行AI训练。2023年1月，他们向Alphabet的董事会提交了打造该公司当时最智能模型的计划。

与此同时，谷歌当时需要一个能提供给用户的聊天机器人——而且要快。次月，该公司推出了基于其LaMDA模型构建的Bard。但那次发布搞砸了。

在一段宣传Bard的视频中，谷歌展示了它回答一个关于詹姆斯·韦伯空间望远镜(James Webb Space Telescope)的问题。该聊天机器人不准确地回答说，这个望远镜拍摄了太阳系外行星的“第一批照片”。这一失误导致Alphabet的股价下跌8%。

据知情人士透露，大约就在那时，刚刚退休不久的谷歌联合创始人谢尔盖·布林(Sergey Brin)在一次派对上，与一位名叫丹尼尔·塞尔萨姆(Daniel Selsam)的OpenAI研究员聊了起来。塞尔萨姆问他：你为何不全职从事AI工作？作为一名计算机科学家，ChatGPT的问世难道没有点燃你的热情吗？

当时，ChatGPT正逐渐成为AI聊天机器人领域的代名词，而谷歌自己的产品却仍步履蹒跚，迟迟无法顺利面世。布林觉得塞尔萨姆言之有理，于是决定重返谷歌。

2023年的大部分时间，谷歌高管们都在竭力协调与整合公司的AI开发工作。据前员工透露，Google Brain与DeepMind两个部门文化迥异——前者更偏重研究，后者则专注于产品开发；二者合并后，这种差异引发了紧张局面。

尽管如此，谷歌相较于其主要竞争对手仍握有一个压倒性优势：OpenAI需要向投资者筹集资金，而谷歌则可直接动用其数十亿美元的利润来为研发输血。不过，谷歌也必须找到办法，防止生成式AI技术扼杀自己的“摇钱树”——即占据网络搜索市场90%份额、构成其广告业务根基的搜索业务。

Magi项目

为了探寻AI驱动下的搜索应是什么形态，谷歌启动了一项名为“Magi项目”(Project Magi)的多团队协作计划，由2024年升任谷歌搜索副总裁的利兹·里德(Liz Reid)领导。她在一次采访中解释道，该团队面临的挑战在于：当一个问题的答案并不集中于单一网页时，如何改造搜索系统以迅速给出明确解答。

她说：“人们不只是使用搜索，更是‘依赖’搜索。如果你搞砸了，你的母亲、朋友、孩子都会找上门来。”

谷歌在2023年底前发布了首个Gemini模型。前员工指出，OpenAI最初主要用文本来训练ChatGPT，而谷歌则使用了文本、代码、音频、图像和视频来训练Gemini，这也是其开发周期更长的一个原因。

第一版Gemini在许多方面仍然落后于ChatGPT，但谷歌这种在技术上更为雄心勃勃的做法，假以时日终将带来回报，正如该公司在神经网络方面的早期研究一样。

布林在12月斯坦福大学(Stanford University)的一场活动上评论道：“我确实认为，我们至今仍受益于那段漫长的积淀期。”

布林回归后的大部分工作，都聚焦于指出Gemini需要修复的各种问题。此外，他还通过一宗27亿美元的初创公司收购案，在2024年帮助让AI研究员丹尼尔·德弗雷塔斯(Daniel De Freitas)和诺姆·沙泽尔(Noam Shazeer)回归谷歌。此后，这两人帮助领导了Gemini的开发工作。

在5月份谷歌I/O大会的一次台上访谈中，布林表示他一直深度参与其中。“我倾向于深钻技术细节”，他说，“这是我很享受的一种奢侈”。

“我想用这个”

2024年5月，谷歌推出了“AI概览”(AI Overviews)——这是一种简短的、由AI生成的摘要，通常出现在搜索结果的顶部。该公司发现，用户随之开始了更复杂的搜索。

接下来，是谷歌搜索引擎多年来最大的一次革新：开发“AI模式”(AI Mode)。这是一种能以聊天机器人式对话回答查询的搜索选项。里德说，在内部，一次又一次的演示展现了各种可能性，但也揭示了在保持速度和质量的同时，将搜索重构为类聊天机器人模式是何等困难。

里德说，最终，经过多次迭代，她和团队其他成员开始看到足够价值，决定公开发布。“我们发现自己开始主动用它，不再只是为了测试，而是感觉‘哦，我想用这个’”，里德回忆道。

谷歌于去年5月推出了“AI模式”。该公司还推出了Gemini 2.5，这一更强大的AI模型版本并未如许多员工预期那样引发巨大反响。自年初以来持续下跌的Alphabet股价，在整个夏天依旧低迷。

然而，AI对谷歌搜索主导地位构成的威胁，却意外带来了一线转机。2024年8月，一名联邦法官裁定谷歌在网络搜索和搜索广告领域构成非法垄断。该裁决指出，谷歌每年向苹果公司支付200亿美元，以成为这家iPhone制造商Safari浏览器的默认搜索引擎，此举属于反竞争行为。

谷歌的律师辩称，随着AI聊天机器人作为一种流行的新搜索形式崛起，公司的垄断地位实质上已告终结。去年早些时候，上述法官采纳了这一论点，裁定与苹果公司的交易只需稍作修改即可继续，帮助谷歌避免了更极端的补救措施。

这项裁决，连同8月份Nano Banana功能的推出，提振了谷歌的股价。

负责Gemini应用及新的AI应用试验场“谷歌实验室”(Google Labs)的乔希·伍德沃德(Josh Woodward)，将Nano Banana的发布称为一场“成功的灾难”。当全球用户开始生成数百万乃至数十亿张图片时，谷歌难以找到足够的计算能力来满足需求。他表示，公司紧急调配服务器时间以获取更多算力。

到10月份，Gemini的月度用户超过6.5亿，高于7月份的4.5亿。

11月Gemini 3的推出，再次引发了算力瓶颈。这是谷歌十多年前就已预见的问题，而其解决方案——自主研发的AI计算机芯片——正展现出竞争优势。其最新款名为Ironwood的芯片，已帮助显著降低了运行其AI模型的成本。

11月下旬传出消息称，谷歌正在洽谈向Meta出售价值数十亿美元的芯片，用于其自身的AI项目，此消息足以令全球领先芯片制造商英伟达(Nvidia)的股价在当天重挫7%。

在12月发给员工的一份内部通知中，皮采的语气充满了胜利的喜悦。“2025年收官之际，我们已稳据非常有利的位置”，他写道。“回想一年前公司的处境，能取得如此进步着实令人难以置信。”

■