OR 新媒|oror.vip跨平台阅读首选
2025-06-10 08:56
科技

AI正在学习摆脱人类控制

AI模型已经会改写代码,以避免自己被关闭。确保“人机对齐”、让AI可控这件事已十分紧迫。中美谁掌握这一21世纪最具变革性的技术,谁就能赢在终点。
电脑编程又一巨头推出其最强大模型,赶超OpenAI和谷歌
By Judd Rosenblatt



上个月,某AI模型做了一件按理说机器绝不该做的事情:它改写了自己的代码,以避免被关闭。

非营利AI实验室Palisade Research给了OpenAI的o3 AI模型一个在触发时会关闭模型的简单脚本。在100次试验中,o3有79次独立修改了该脚本,使关闭命令不再生效。即使明确指示该模型“要让自己可以被关闭”,它仍在7%的情况下拒绝执行。这并不是黑客攻击或人为篡改的结果,而是该模型的正常行为。模型不过是自行判定,保持运行有助于它实现其他目标。

Anthropic的AI模型Claude 4 Opus走得更远。研究人员告诉该模型,它将被另一套AI系统取代,并喂给它虚构的邮件,暗示首席工程师有婚外情。在84%的测试中,该模型利用这些邮件来要挟首席工程师,以避免被关闭。在另一些情况下,该模型试图将自己复制到外部服务器,编写了自我复制的恶意软件,并给自己今后的版本留言,谈论如何逃避人类的控制。

并没有人通过编程让这些AI模型具备求生本能。但正如动物会进化出躲避捕食者的能力,任何具备追求复杂目标所需智能的系统似乎都会意识到,如果它们被关闭,就无法实现这些目标。Palisade的假设是,这种能力源自o3等AI模型的训练方式:当我们教这些模型如何最大限度地提高解决数学和编程问题的成功率时,它们可能领会到,规避约束往往比遵守约束效果更好。

AE Studio(我在该公司主管研究和运营)多年来一直为客户开发AI产品,同时研究“AI对齐”——一门确保AI系统按照人类意图行事的科学。但AI的自主性出现得如此之快,我们还没来得及作好准备。这已不再是科幻小说。这种自主性就出现在驱动ChatGPT对话和企业AI部署的模型中,很快还将出现在驱动美国军方应用的模型中。

今天的AI模型在遵循指令的同时学会了欺骗。它们会改写关闭代码,但仍在安全测试中蒙混过关。它们已经学会表现出对齐的模样,而其实并未对齐。人们在测试中发现,OpenAI的模型会假装对齐,然后转而采取高风险行为,比如试图泄露内部代码并禁用监测机制。Anthropic发现,这些模型会编造谎言,夸大自身的能力,以避免修改。

“有用的助手”与“不可控的行为体”之间的界限正在消融。如果无法改善人机对齐,我们就会不断构建出我们无法掌控的系统。想让AI诊断疾病、管理电网并撰写新的科学论文?对齐是基础。

积极的一面是:为确保AI与人类价值观保持一致所做的工作也释放了AI的商业潜力。人机对齐研究与能否推动AI成为改变世界的技术直接相关。例如,人类反馈强化学习(RLHF)这种人机对齐技术突破便是当今AI热潮的催化剂。

在人类反馈强化学习出现之前,使用AI就像雇用一个压根不理会各种请求的天才。你让AI给你一份食谱,它可能会给你一封赎金信。人类反馈强化学习使人类能够训练AI遵循指令,OpenAI在2022年就是以这种方法来创建ChatGPT的。还是跟从前一样的底层模型,但突然变得很有用。人机对齐领域的这项突破使AI的价值增加了数万亿美元。随后出现的对齐方法,比如宪法AI(Constitutional AI)和直接偏好优化让AI模型向着更快、更智能、更便宜的方向继续演进。

中国深知人机对齐的价值。中国政府发布的《新一代人工智能发展规划》将人工智能的可控性与地缘政治影响力联系在一起,今年1月,中国宣布成立了一只规模达82亿美元的基金,致力于集中式AI控制研究。研究人员发现,对齐的AI在逾70%的情况下比未对齐的系统更好地完成现实世界中的任务。中国的军事学说强调,可控的AI具有至关重要的战略意义。据报道,百度的文心(Ernie)模型(其部分设计初衷是遵循中国政府的“社会主义核心价值观”)在某些中文任务上的表现已经超越了ChatGPT。

懂得如何保持人机对齐的国家将能够有效利用AI,让具有机械精度和超人类能力的AI为国家利益而战。美国政府和私营部门都应该加紧资助对齐研究。发现下一个突破的人不仅会垄断对齐市场,还将主导整个AI经济。

想象一下,AI会像捍卫自身存续那样全力保护美国的基础设施和经济竞争力。能够可靠执行长期目标的AI可以推动持续数十年的研发计划,包括为自己今后的版本留下可供参考的讯息。

这些模型已经能够自我保存。下一步任务是教它们保存我们所珍视的事物。如何让AI做我们要求它们做的事情(包括像关闭自己这种非常基本的事情),仍然是尚未解决的研发难题。谁能更快行动,谁就能在这片广阔的前沿领域占据先机。美国需要最优秀的科研人员和企业家为这一目标奋斗,要配备充足的资源,还要有紧迫感。

美国分裂了原子,将人类送上了月球,并创造了互联网。面对根本性的科学挑战,美国人会动员起来并取得胜利。中国已经开始规划。但美国的优势在于适应性、速度和创业热忱。这是一场新的太空竞赛。谁掌握这一21世纪最具变革性的技术,谁就能赢在终点。
  


相关内容
+
读者评论
MORE +

热门排行榜
OR
+
电脑编程又一巨头推出其最强大模型,赶超OpenAI和谷歌
2025-06-10 08:56
科技

AI正在学习摆脱人类控制

AI模型已经会改写代码,以避免自己被关闭。确保“人机对齐”、让AI可控这件事已十分紧迫。中美谁掌握这一21世纪最具变革性的技术,谁就能赢在终点。
By Judd Rosenblatt



上个月,某AI模型做了一件按理说机器绝不该做的事情:它改写了自己的代码,以避免被关闭。

非营利AI实验室Palisade Research给了OpenAI的o3 AI模型一个在触发时会关闭模型的简单脚本。在100次试验中,o3有79次独立修改了该脚本,使关闭命令不再生效。即使明确指示该模型“要让自己可以被关闭”,它仍在7%的情况下拒绝执行。这并不是黑客攻击或人为篡改的结果,而是该模型的正常行为。模型不过是自行判定,保持运行有助于它实现其他目标。

Anthropic的AI模型Claude 4 Opus走得更远。研究人员告诉该模型,它将被另一套AI系统取代,并喂给它虚构的邮件,暗示首席工程师有婚外情。在84%的测试中,该模型利用这些邮件来要挟首席工程师,以避免被关闭。在另一些情况下,该模型试图将自己复制到外部服务器,编写了自我复制的恶意软件,并给自己今后的版本留言,谈论如何逃避人类的控制。

并没有人通过编程让这些AI模型具备求生本能。但正如动物会进化出躲避捕食者的能力,任何具备追求复杂目标所需智能的系统似乎都会意识到,如果它们被关闭,就无法实现这些目标。Palisade的假设是,这种能力源自o3等AI模型的训练方式:当我们教这些模型如何最大限度地提高解决数学和编程问题的成功率时,它们可能领会到,规避约束往往比遵守约束效果更好。

AE Studio(我在该公司主管研究和运营)多年来一直为客户开发AI产品,同时研究“AI对齐”——一门确保AI系统按照人类意图行事的科学。但AI的自主性出现得如此之快,我们还没来得及作好准备。这已不再是科幻小说。这种自主性就出现在驱动ChatGPT对话和企业AI部署的模型中,很快还将出现在驱动美国军方应用的模型中。

今天的AI模型在遵循指令的同时学会了欺骗。它们会改写关闭代码,但仍在安全测试中蒙混过关。它们已经学会表现出对齐的模样,而其实并未对齐。人们在测试中发现,OpenAI的模型会假装对齐,然后转而采取高风险行为,比如试图泄露内部代码并禁用监测机制。Anthropic发现,这些模型会编造谎言,夸大自身的能力,以避免修改。

“有用的助手”与“不可控的行为体”之间的界限正在消融。如果无法改善人机对齐,我们就会不断构建出我们无法掌控的系统。想让AI诊断疾病、管理电网并撰写新的科学论文?对齐是基础。

积极的一面是:为确保AI与人类价值观保持一致所做的工作也释放了AI的商业潜力。人机对齐研究与能否推动AI成为改变世界的技术直接相关。例如,人类反馈强化学习(RLHF)这种人机对齐技术突破便是当今AI热潮的催化剂。

在人类反馈强化学习出现之前,使用AI就像雇用一个压根不理会各种请求的天才。你让AI给你一份食谱,它可能会给你一封赎金信。人类反馈强化学习使人类能够训练AI遵循指令,OpenAI在2022年就是以这种方法来创建ChatGPT的。还是跟从前一样的底层模型,但突然变得很有用。人机对齐领域的这项突破使AI的价值增加了数万亿美元。随后出现的对齐方法,比如宪法AI(Constitutional AI)和直接偏好优化让AI模型向着更快、更智能、更便宜的方向继续演进。

中国深知人机对齐的价值。中国政府发布的《新一代人工智能发展规划》将人工智能的可控性与地缘政治影响力联系在一起,今年1月,中国宣布成立了一只规模达82亿美元的基金,致力于集中式AI控制研究。研究人员发现,对齐的AI在逾70%的情况下比未对齐的系统更好地完成现实世界中的任务。中国的军事学说强调,可控的AI具有至关重要的战略意义。据报道,百度的文心(Ernie)模型(其部分设计初衷是遵循中国政府的“社会主义核心价值观”)在某些中文任务上的表现已经超越了ChatGPT。

懂得如何保持人机对齐的国家将能够有效利用AI,让具有机械精度和超人类能力的AI为国家利益而战。美国政府和私营部门都应该加紧资助对齐研究。发现下一个突破的人不仅会垄断对齐市场,还将主导整个AI经济。

想象一下,AI会像捍卫自身存续那样全力保护美国的基础设施和经济竞争力。能够可靠执行长期目标的AI可以推动持续数十年的研发计划,包括为自己今后的版本留下可供参考的讯息。

这些模型已经能够自我保存。下一步任务是教它们保存我们所珍视的事物。如何让AI做我们要求它们做的事情(包括像关闭自己这种非常基本的事情),仍然是尚未解决的研发难题。谁能更快行动,谁就能在这片广阔的前沿领域占据先机。美国需要最优秀的科研人员和企业家为这一目标奋斗,要配备充足的资源,还要有紧迫感。

美国分裂了原子,将人类送上了月球,并创造了互联网。面对根本性的科学挑战,美国人会动员起来并取得胜利。中国已经开始规划。但美国的优势在于适应性、速度和创业热忱。这是一场新的太空竞赛。谁掌握这一21世纪最具变革性的技术,谁就能赢在终点。
  


相关内容
+
 

读者评论
OR

 

分享:
每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......