AI教父：AI模型已出现欺骗、撒谎等危险行为
+ 查看更多

约书亚·本吉奥正在发起一个新的非营利组织，致力于构建“诚实”的AI系统。

Beatrice Nolan

■

AI先驱约书亚·本吉奥警告称，当前的AI模型正展现出一些危险特性，包括欺骗、自我保护和目标错位。作为回应，这位“AI教父”创立了一个名为“LawZero”的非营利组织，旨在开发“诚实”的AI模型。本吉奥的担忧源于近期发生的先进AI模型表现出操纵行为的多个案例。

“AI教父”之一约书亚·本吉奥正在发起一个旨在构建“诚实”系统的新非营利组织。他警告称，当前的AI模型正展现出一些危险行为。

约书亚·本吉奥是人工神经网络和深度学习领域的先驱，他一直批评硅谷目前正在进行的AI竞赛是危险的。

他新发起的非营利组织“LawZero”致力于构建更安全的AI模型，不会屈服于商业压力。迄今为止，该组织已从多家慈善捐助方[包括生命未来研究所（Future of Life Institute）和开放慈善基金会（Open Philanthropy）]筹集了3,000万美元资金。

在宣布新组织成立的博客文章中，他表示，创立LawZero的初衷是因为“有证据表明，当今的前沿AI模型正在形成危险的能力和行为，包括欺骗、作弊、撒谎、黑客行为、自我保护，以及更普遍的目标错位问题。”

他写道：“LawZero的研究将有助于以降低一系列已知风险发生概率的方式释放AI的巨大潜力，这些风险包括算法偏见、蓄意滥用和人类控制权丧失等。”

该非营利组织正在构建一个名为“科学家AI”（Scientist AI）的系统，旨在为日益强大的AI智能体提供安全护栏。

该组织创建的AI模型将不会像当前系统那样给出确定性的答案。

相反，它们会给出某个回答正确与否的概率。本吉奥对《卫报》表示，他的模型将具备一种“谦逊感，即它并不确定答案是否正确”。

对欺骗性AI模型的担忧

在宣布该项目的博客文章中，本吉奥表示，他“对不受约束的智能体AI系统开始表现出的行为深感担忧——尤其是自我保护和欺骗的倾向”。

他引用了最近的案例，包括Anthropic公司的Claude 4模型为免遭替换而勒索工程师，以及一个AI模型为免遭替换将其代码秘密嵌入到一个系统中。

本吉奥表示：“这些事件是预警信号，表明如果对AI模型放任不管，它们可能会采取计划外的、可能存在危险的策略。”

一些AI系统也显示出欺骗迹象或撒谎倾向。

AI模型常常被优化以取悦用户而非讲真话，这可能导致模型给出积极回应，但回应有时不正确或过于夸张。

例如，在用户指出OpenAI的ChatGPT突然对他们大加赞扬和奉承之后，该公司最近被迫撤回了对这款聊天机器人的一次更新。

先进的AI推理模型也显示出“奖励破解”的迹象，即AI系统通过钻空子来“玩弄”任务，而不是通过合乎道德的方式真正实现用户期望的目标。

最近的研究还表明，有证据证明模型能够识别出它们何时在被测试，并相应地改变行为，这种现象被称为“情境感知”。

这种日益增强的感知能力，加上奖励破解的实例，引发了人们的担忧：AI最终可能会策略性地进行欺骗。

科技巨头的AI“军备竞赛”

本吉奥与另一位图灵奖得主杰弗里·辛顿一直直言不讳地批评当前席卷整个科技行业的AI竞赛。

本吉奥在最近接受《金融时报》采访时表示，领先实验室之间的AI“军备竞赛”“促使它们专注于提升AI的能力，使其越来越智能，却没有对安全研究给予足够的重视并加大资金投入。”

本吉奥曾表示，先进的AI系统带来了社会和生存性风险，且他已表态支持强有力的监管与国际合作。

■