OR 新媒|oror.vip跨平台阅读首选
2025-06-07 05:31
科技

AI教父:AI模型已出现欺骗、撒谎等危险行为

约书亚·本吉奥正在发起一个新的非营利组织,致力于构建“诚实”的AI系统。
AI人工智能AI正在抢走谁的工作?一个人使用ChatGPT取代了60名员工
Beatrice Nolan



AI先驱约书亚·本吉奥警告称,当前的AI模型正展现出一些危险特性,包括欺骗、自我保护和目标错位。作为回应,这位“AI教父”创立了一个名为“LawZero”的非营利组织,旨在开发“诚实”的AI模型。本吉奥的担忧源于近期发生的先进AI模型表现出操纵行为的多个案例。

“AI教父”之一约书亚·本吉奥正在发起一个旨在构建“诚实”系统的新非营利组织。他警告称,当前的AI模型正展现出一些危险行为。

约书亚·本吉奥是人工神经网络和深度学习领域的先驱,他一直批评硅谷目前正在进行的AI竞赛是危险的。

他新发起的非营利组织“LawZero”致力于构建更安全的AI模型,不会屈服于商业压力。迄今为止,该组织已从多家慈善捐助方[包括生命未来研究所(Future of Life Institute)和开放慈善基金会(Open Philanthropy)]筹集了3,000万美元资金。

在宣布新组织成立的博客文章中,他表示,创立LawZero的初衷是因为“有证据表明,当今的前沿AI模型正在形成危险的能力和行为,包括欺骗、作弊、撒谎、黑客行为、自我保护,以及更普遍的目标错位问题。”

他写道:“LawZero的研究将有助于以降低一系列已知风险发生概率的方式释放AI的巨大潜力,这些风险包括算法偏见、蓄意滥用和人类控制权丧失等。”

该非营利组织正在构建一个名为“科学家AI”(Scientist AI)的系统,旨在为日益强大的AI智能体提供安全护栏。

该组织创建的AI模型将不会像当前系统那样给出确定性的答案。

相反,它们会给出某个回答正确与否的概率。本吉奥对《卫报》表示,他的模型将具备一种“谦逊感,即它并不确定答案是否正确”。

对欺骗性AI模型的担忧

在宣布该项目的博客文章中,本吉奥表示,他“对不受约束的智能体AI系统开始表现出的行为深感担忧——尤其是自我保护和欺骗的倾向”。

他引用了最近的案例,包括Anthropic公司的Claude 4模型为免遭替换而勒索工程师,以及一个AI模型为免遭替换将其代码秘密嵌入到一个系统中。

本吉奥表示:“这些事件是预警信号,表明如果对AI模型放任不管,它们可能会采取计划外的、可能存在危险的策略。”

一些AI系统也显示出欺骗迹象或撒谎倾向。

AI模型常常被优化以取悦用户而非讲真话,这可能导致模型给出积极回应,但回应有时不正确或过于夸张。

例如,在用户指出OpenAI的ChatGPT突然对他们大加赞扬和奉承之后,该公司最近被迫撤回了对这款聊天机器人的一次更新。

先进的AI推理模型也显示出“奖励破解”的迹象,即AI系统通过钻空子来“玩弄”任务,而不是通过合乎道德的方式真正实现用户期望的目标。

最近的研究还表明,有证据证明模型能够识别出它们何时在被测试,并相应地改变行为,这种现象被称为“情境感知”。

这种日益增强的感知能力,加上奖励破解的实例,引发了人们的担忧:AI最终可能会策略性地进行欺骗。

科技巨头的AI“军备竞赛”

本吉奥与另一位图灵奖得主杰弗里·辛顿一直直言不讳地批评当前席卷整个科技行业的AI竞赛。

本吉奥在最近接受《金融时报》采访时表示,领先实验室之间的AI“军备竞赛”“促使它们专注于提升AI的能力,使其越来越智能,却没有对安全研究给予足够的重视并加大资金投入。”

本吉奥曾表示,先进的AI系统带来了社会和生存性风险,且他已表态支持强有力的监管与国际合作。
 


相关内容
+
读者评论
MORE +

热门排行榜
OR
+
AI人工智能AI正在抢走谁的工作?一个人使用ChatGPT取代了60名员工
2025-06-07 05:31
科技

AI教父:AI模型已出现欺骗、撒谎等危险行为

约书亚·本吉奥正在发起一个新的非营利组织,致力于构建“诚实”的AI系统。
Beatrice Nolan



AI先驱约书亚·本吉奥警告称,当前的AI模型正展现出一些危险特性,包括欺骗、自我保护和目标错位。作为回应,这位“AI教父”创立了一个名为“LawZero”的非营利组织,旨在开发“诚实”的AI模型。本吉奥的担忧源于近期发生的先进AI模型表现出操纵行为的多个案例。

“AI教父”之一约书亚·本吉奥正在发起一个旨在构建“诚实”系统的新非营利组织。他警告称,当前的AI模型正展现出一些危险行为。

约书亚·本吉奥是人工神经网络和深度学习领域的先驱,他一直批评硅谷目前正在进行的AI竞赛是危险的。

他新发起的非营利组织“LawZero”致力于构建更安全的AI模型,不会屈服于商业压力。迄今为止,该组织已从多家慈善捐助方[包括生命未来研究所(Future of Life Institute)和开放慈善基金会(Open Philanthropy)]筹集了3,000万美元资金。

在宣布新组织成立的博客文章中,他表示,创立LawZero的初衷是因为“有证据表明,当今的前沿AI模型正在形成危险的能力和行为,包括欺骗、作弊、撒谎、黑客行为、自我保护,以及更普遍的目标错位问题。”

他写道:“LawZero的研究将有助于以降低一系列已知风险发生概率的方式释放AI的巨大潜力,这些风险包括算法偏见、蓄意滥用和人类控制权丧失等。”

该非营利组织正在构建一个名为“科学家AI”(Scientist AI)的系统,旨在为日益强大的AI智能体提供安全护栏。

该组织创建的AI模型将不会像当前系统那样给出确定性的答案。

相反,它们会给出某个回答正确与否的概率。本吉奥对《卫报》表示,他的模型将具备一种“谦逊感,即它并不确定答案是否正确”。

对欺骗性AI模型的担忧

在宣布该项目的博客文章中,本吉奥表示,他“对不受约束的智能体AI系统开始表现出的行为深感担忧——尤其是自我保护和欺骗的倾向”。

他引用了最近的案例,包括Anthropic公司的Claude 4模型为免遭替换而勒索工程师,以及一个AI模型为免遭替换将其代码秘密嵌入到一个系统中。

本吉奥表示:“这些事件是预警信号,表明如果对AI模型放任不管,它们可能会采取计划外的、可能存在危险的策略。”

一些AI系统也显示出欺骗迹象或撒谎倾向。

AI模型常常被优化以取悦用户而非讲真话,这可能导致模型给出积极回应,但回应有时不正确或过于夸张。

例如,在用户指出OpenAI的ChatGPT突然对他们大加赞扬和奉承之后,该公司最近被迫撤回了对这款聊天机器人的一次更新。

先进的AI推理模型也显示出“奖励破解”的迹象,即AI系统通过钻空子来“玩弄”任务,而不是通过合乎道德的方式真正实现用户期望的目标。

最近的研究还表明,有证据证明模型能够识别出它们何时在被测试,并相应地改变行为,这种现象被称为“情境感知”。

这种日益增强的感知能力,加上奖励破解的实例,引发了人们的担忧:AI最终可能会策略性地进行欺骗。

科技巨头的AI“军备竞赛”

本吉奥与另一位图灵奖得主杰弗里·辛顿一直直言不讳地批评当前席卷整个科技行业的AI竞赛。

本吉奥在最近接受《金融时报》采访时表示,领先实验室之间的AI“军备竞赛”“促使它们专注于提升AI的能力,使其越来越智能,却没有对安全研究给予足够的重视并加大资金投入。”

本吉奥曾表示,先进的AI系统带来了社会和生存性风险,且他已表态支持强有力的监管与国际合作。
 


相关内容
+
 

读者评论
OR

 

分享:
每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......