2025-09-29 17:20
科技
“世界模型”:AI进化的下一个制高点+ 查看更多
“世界模型”:AI进化的下一个制高点
+ 查看更多
如今的AI拥有“书本智慧”。它们所知的一切都学自既有的语言、图像和视频。要想进一步进化,它们必须获得“街头智慧”。这得仰仗“世界模型”。
Christopher Mims
+ 查看更多
■
如今的AI拥有“书本智慧”。它们所知的一切都学自既有的语言、图像和视频。要想进一步进化,它们必须获得“街头智慧”。这得仰仗“世界模型”。
关键在于要让AI能够从环境中学习,并在其“头脑”中忠实呈现抽象版本的环境,就像人类和动物所做的那样。为此,开发者需要利用对世界的模拟来训练AI。这就好比通过玩《GT赛车》(Gran Turismo)来学习驾驶,或者通过玩《微软飞行模拟》(Microsoft Flight Simulator)来学习飞行。这些世界模型涉及进行规划、采取行动和预测未来所需的一切,包括物理和时间。
风险投资公司Lightspeed的合伙人兼投资人莫里茨·拜尔-伦茨(Moritz Baier-Lentz)表示,世界模型路线(这个术语有些令人困惑,既指模拟的训练环境,也指抽象的表征)可能已经在对现实世界产生极大的影响。无人机作战、新型机器人以及比人类驾驶更安全的自动驾驶汽车都受益于此。
AI领域的先锋几乎一致认为,打造下一代AI离不开世界模型。许多人都表示,世界模型是未来创造出超越人类的“通用人工智能”(AGI)的关键。斯坦福大学(Stanford University)教授、AI“教母”李飞飞(Fei-Fei Li)已筹资2.3亿美元创办世界模型初创企业World Labs。
英伟达(Nvidia)首席执行官黄仁勋(Jensen Huang)曾表示,世界模型有助于解锁“物理AI ”,以便自主驾驭机器人、自动驾驶汽车之类。
尽管促成大语言模型和ChatGPT的AI类型目前备受关注,但基于世界模型的AI正在前沿研究中获得良好发展势头,并可能让技术在我们的生活中扮演新角色。
目前尚不清楚所有这些押注是否会带来商业领袖们预测的超级智能。但短期内,世界模型或可使AI在目前力所不及的任务上做得更好,尤其是在空间推理领域。
优步(Uber)前AI业务负责人、经常批评当前AI模式的加里·马库斯(Gary Marcus)表示,如今的生成式AI无论接受多少数据训练,都只能学习到一个关于世界如何运作的概率模型。从根本上说,当今的AI会学习所有被“喂”给它们的数据之间有何相关性——无论这些数据是文字和图像,还是分子及其功能。这种对世界模糊的近似认知,似乎是以一种混合物的形式编码在AI的“大脑”之中:既包含数据,也包含一套用于操控数据的庞杂规则,这套规则还常常不完整,甚至自相矛盾。
一个很好的例子是:一台运行1979年程序的雅达利(Atari) 2600游戏机下国际象棋可以击败顶尖的聊天机器人。这些聊天机器人往往会尝试犯规的棋步,而且很快就会搞不清棋子的位置。从本质上讲,当今基于Transformer架构的AI是在做预测,而不是进行逻辑推理。尽管在训练中接触了无数的棋局和规则手册,但它们依然如此。雅达利之所以能赢,是因为它通过一种古旧简朴的内部世界模型——一个数据库——来准确记录棋子的位置。
也有能在国际象棋对弈中击败雅达利游戏机以及任何在世棋手的AI。谷歌(Google)于2019年发布的MuZero,在构建方式上与后来的生成式AI机器人截然不同。它通过学习如何为所玩的棋局创建准确的表征而获得成功。
但涉及现实世界中的任务又当如何呢?现实世界远比受限的游戏世界复杂得多。为了应对这些挑战,谷歌DeepMind的研究人员着手打造一个系统,寻求以前所未有的逼真程度实现对现实世界的模拟。
其成果Genie 3——目前仍处于研究预览阶段,尚未对公众开放——仅凭一段文本提示,就能生成逼真度堪比照片的开放世界虚拟景观。不妨把Genie 3理解为一种生成开放世界视频游戏的方法,不仅生成速度极快,还能根据你的需要随意调整逼真程度。这个虚拟空间可供初生的AI无休止地玩耍、犯错,并学习为实现其目标需要做什么,就像动物或人类年幼时在现实世界中所做的那样。这个实验过程被称为强化学习。
该项目联合负责人杰克·帕克-霍尔德(Jack Parker-Holder)表示,Genie 3是一个系统的组成部分,该系统有望帮助训练那种有朝一日可驾驭机器人、自动驾驶汽车等“具身”AI的AI。他补充说,相关环境可能充满人和障碍物:AI可以通过观察人类在这个虚拟空间中的活动来学习如何与人类互动。
关于虚拟环境中人们如何运作,可能已经有了堪称海量的数据来源,Medal.tv就是一例,该服务可以捕捉游玩过程和用户在游戏内的行为。事实可能会证明,对于试图把AGI以及可驾驭机器人的AI变为现实的各个前沿AI实验室来说,这些数据来源有极大的用处和价值。最终,在虚拟环境中进行的所有这些学习不仅可能让聊天机器人变得更智能,或许还会带来能够在现实世界中安全运作的系统。
Waabi
关键在于要让AI能够从环境中学习,并在其“头脑”中忠实呈现抽象版本的环境,就像人类和动物所做的那样。为此,开发者需要利用对世界的模拟来训练AI。这就好比通过玩《GT赛车》(Gran Turismo)来学习驾驶,或者通过玩《微软飞行模拟》(Microsoft Flight Simulator)来学习飞行。这些世界模型涉及进行规划、采取行动和预测未来所需的一切,包括物理和时间。
风险投资公司Lightspeed的合伙人兼投资人莫里茨·拜尔-伦茨(Moritz Baier-Lentz)表示,世界模型路线(这个术语有些令人困惑,既指模拟的训练环境,也指抽象的表征)可能已经在对现实世界产生极大的影响。无人机作战、新型机器人以及比人类驾驶更安全的自动驾驶汽车都受益于此。
AI领域的先锋几乎一致认为,打造下一代AI离不开世界模型。许多人都表示,世界模型是未来创造出超越人类的“通用人工智能”(AGI)的关键。斯坦福大学(Stanford University)教授、AI“教母”李飞飞(Fei-Fei Li)已筹资2.3亿美元创办世界模型初创企业World Labs。
英伟达(Nvidia)首席执行官黄仁勋(Jensen Huang)曾表示,世界模型有助于解锁“物理AI ”,以便自主驾驭机器人、自动驾驶汽车之类。
尽管促成大语言模型和ChatGPT的AI类型目前备受关注,但基于世界模型的AI正在前沿研究中获得良好发展势头,并可能让技术在我们的生活中扮演新角色。
目前尚不清楚所有这些押注是否会带来商业领袖们预测的超级智能。但短期内,世界模型或可使AI在目前力所不及的任务上做得更好,尤其是在空间推理领域。
优步(Uber)前AI业务负责人、经常批评当前AI模式的加里·马库斯(Gary Marcus)表示,如今的生成式AI无论接受多少数据训练,都只能学习到一个关于世界如何运作的概率模型。从根本上说,当今的AI会学习所有被“喂”给它们的数据之间有何相关性——无论这些数据是文字和图像,还是分子及其功能。这种对世界模糊的近似认知,似乎是以一种混合物的形式编码在AI的“大脑”之中:既包含数据,也包含一套用于操控数据的庞杂规则,这套规则还常常不完整,甚至自相矛盾。
一个很好的例子是:一台运行1979年程序的雅达利(Atari) 2600游戏机下国际象棋可以击败顶尖的聊天机器人。这些聊天机器人往往会尝试犯规的棋步,而且很快就会搞不清棋子的位置。从本质上讲,当今基于Transformer架构的AI是在做预测,而不是进行逻辑推理。尽管在训练中接触了无数的棋局和规则手册,但它们依然如此。雅达利之所以能赢,是因为它通过一种古旧简朴的内部世界模型——一个数据库——来准确记录棋子的位置。
也有能在国际象棋对弈中击败雅达利游戏机以及任何在世棋手的AI。谷歌(Google)于2019年发布的MuZero,在构建方式上与后来的生成式AI机器人截然不同。它通过学习如何为所玩的棋局创建准确的表征而获得成功。
但涉及现实世界中的任务又当如何呢?现实世界远比受限的游戏世界复杂得多。为了应对这些挑战,谷歌DeepMind的研究人员着手打造一个系统,寻求以前所未有的逼真程度实现对现实世界的模拟。
其成果Genie 3——目前仍处于研究预览阶段,尚未对公众开放——仅凭一段文本提示,就能生成逼真度堪比照片的开放世界虚拟景观。不妨把Genie 3理解为一种生成开放世界视频游戏的方法,不仅生成速度极快,还能根据你的需要随意调整逼真程度。这个虚拟空间可供初生的AI无休止地玩耍、犯错,并学习为实现其目标需要做什么,就像动物或人类年幼时在现实世界中所做的那样。这个实验过程被称为强化学习。
该项目联合负责人杰克·帕克-霍尔德(Jack Parker-Holder)表示,Genie 3是一个系统的组成部分,该系统有望帮助训练那种有朝一日可驾驭机器人、自动驾驶汽车等“具身”AI的AI。他补充说,相关环境可能充满人和障碍物:AI可以通过观察人类在这个虚拟空间中的活动来学习如何与人类互动。
关于虚拟环境中人们如何运作,可能已经有了堪称海量的数据来源,Medal.tv就是一例,该服务可以捕捉游玩过程和用户在游戏内的行为。事实可能会证明,对于试图把AGI以及可驾驭机器人的AI变为现实的各个前沿AI实验室来说,这些数据来源有极大的用处和价值。最终,在虚拟环境中进行的所有这些学习不仅可能让聊天机器人变得更智能,或许还会带来能够在现实世界中安全运作的系统。
Waabi
总部位于多伦多的Waabi公司构建了一个名为Waabi World的完整世界,专门用于训练AI驾驶卡车。让它们在模拟中反复经历磕撞,比在现实世界中哪怕只尝试一次要安全得多(代价也小得多)。该公司首席执行官拉克尔·乌尔塔孙(Raquel Urtasun)表示,AI由此能够记录数百万英里的虚拟驾驶里程。她补充说,预计到今年年底,Waabi的软件可实现真实卡车在真实道路上的自动驾驶。
大语言模型似乎已经开始承担白领工作中的一些职能,而具备世界模型智慧的AI可能会让它们有更大的用武之地。蓝领工作此前相对安全。但随着AI开发者不断发力世界模型,机器人可能会开始申请卡车司机、水管工或护工等工作。
■
相关内容+ 更多
相关内容
+ 更多
Christopher Mims
+ 查看更多
■
如今的AI拥有“书本智慧”。它们所知的一切都学自既有的语言、图像和视频。要想进一步进化,它们必须获得“街头智慧”。这得仰仗“世界模型”。
关键在于要让AI能够从环境中学习,并在其“头脑”中忠实呈现抽象版本的环境,就像人类和动物所做的那样。为此,开发者需要利用对世界的模拟来训练AI。这就好比通过玩《GT赛车》(Gran Turismo)来学习驾驶,或者通过玩《微软飞行模拟》(Microsoft Flight Simulator)来学习飞行。这些世界模型涉及进行规划、采取行动和预测未来所需的一切,包括物理和时间。
风险投资公司Lightspeed的合伙人兼投资人莫里茨·拜尔-伦茨(Moritz Baier-Lentz)表示,世界模型路线(这个术语有些令人困惑,既指模拟的训练环境,也指抽象的表征)可能已经在对现实世界产生极大的影响。无人机作战、新型机器人以及比人类驾驶更安全的自动驾驶汽车都受益于此。
AI领域的先锋几乎一致认为,打造下一代AI离不开世界模型。许多人都表示,世界模型是未来创造出超越人类的“通用人工智能”(AGI)的关键。斯坦福大学(Stanford University)教授、AI“教母”李飞飞(Fei-Fei Li)已筹资2.3亿美元创办世界模型初创企业World Labs。
英伟达(Nvidia)首席执行官黄仁勋(Jensen Huang)曾表示,世界模型有助于解锁“物理AI ”,以便自主驾驭机器人、自动驾驶汽车之类。
尽管促成大语言模型和ChatGPT的AI类型目前备受关注,但基于世界模型的AI正在前沿研究中获得良好发展势头,并可能让技术在我们的生活中扮演新角色。
目前尚不清楚所有这些押注是否会带来商业领袖们预测的超级智能。但短期内,世界模型或可使AI在目前力所不及的任务上做得更好,尤其是在空间推理领域。
优步(Uber)前AI业务负责人、经常批评当前AI模式的加里·马库斯(Gary Marcus)表示,如今的生成式AI无论接受多少数据训练,都只能学习到一个关于世界如何运作的概率模型。从根本上说,当今的AI会学习所有被“喂”给它们的数据之间有何相关性——无论这些数据是文字和图像,还是分子及其功能。这种对世界模糊的近似认知,似乎是以一种混合物的形式编码在AI的“大脑”之中:既包含数据,也包含一套用于操控数据的庞杂规则,这套规则还常常不完整,甚至自相矛盾。
一个很好的例子是:一台运行1979年程序的雅达利(Atari) 2600游戏机下国际象棋可以击败顶尖的聊天机器人。这些聊天机器人往往会尝试犯规的棋步,而且很快就会搞不清棋子的位置。从本质上讲,当今基于Transformer架构的AI是在做预测,而不是进行逻辑推理。尽管在训练中接触了无数的棋局和规则手册,但它们依然如此。雅达利之所以能赢,是因为它通过一种古旧简朴的内部世界模型——一个数据库——来准确记录棋子的位置。
也有能在国际象棋对弈中击败雅达利游戏机以及任何在世棋手的AI。谷歌(Google)于2019年发布的MuZero,在构建方式上与后来的生成式AI机器人截然不同。它通过学习如何为所玩的棋局创建准确的表征而获得成功。
但涉及现实世界中的任务又当如何呢?现实世界远比受限的游戏世界复杂得多。为了应对这些挑战,谷歌DeepMind的研究人员着手打造一个系统,寻求以前所未有的逼真程度实现对现实世界的模拟。
其成果Genie 3——目前仍处于研究预览阶段,尚未对公众开放——仅凭一段文本提示,就能生成逼真度堪比照片的开放世界虚拟景观。不妨把Genie 3理解为一种生成开放世界视频游戏的方法,不仅生成速度极快,还能根据你的需要随意调整逼真程度。这个虚拟空间可供初生的AI无休止地玩耍、犯错,并学习为实现其目标需要做什么,就像动物或人类年幼时在现实世界中所做的那样。这个实验过程被称为强化学习。
该项目联合负责人杰克·帕克-霍尔德(Jack Parker-Holder)表示,Genie 3是一个系统的组成部分,该系统有望帮助训练那种有朝一日可驾驭机器人、自动驾驶汽车等“具身”AI的AI。他补充说,相关环境可能充满人和障碍物:AI可以通过观察人类在这个虚拟空间中的活动来学习如何与人类互动。
关于虚拟环境中人们如何运作,可能已经有了堪称海量的数据来源,Medal.tv就是一例,该服务可以捕捉游玩过程和用户在游戏内的行为。事实可能会证明,对于试图把AGI以及可驾驭机器人的AI变为现实的各个前沿AI实验室来说,这些数据来源有极大的用处和价值。最终,在虚拟环境中进行的所有这些学习不仅可能让聊天机器人变得更智能,或许还会带来能够在现实世界中安全运作的系统。
Waabi
关键在于要让AI能够从环境中学习,并在其“头脑”中忠实呈现抽象版本的环境,就像人类和动物所做的那样。为此,开发者需要利用对世界的模拟来训练AI。这就好比通过玩《GT赛车》(Gran Turismo)来学习驾驶,或者通过玩《微软飞行模拟》(Microsoft Flight Simulator)来学习飞行。这些世界模型涉及进行规划、采取行动和预测未来所需的一切,包括物理和时间。
风险投资公司Lightspeed的合伙人兼投资人莫里茨·拜尔-伦茨(Moritz Baier-Lentz)表示,世界模型路线(这个术语有些令人困惑,既指模拟的训练环境,也指抽象的表征)可能已经在对现实世界产生极大的影响。无人机作战、新型机器人以及比人类驾驶更安全的自动驾驶汽车都受益于此。
AI领域的先锋几乎一致认为,打造下一代AI离不开世界模型。许多人都表示,世界模型是未来创造出超越人类的“通用人工智能”(AGI)的关键。斯坦福大学(Stanford University)教授、AI“教母”李飞飞(Fei-Fei Li)已筹资2.3亿美元创办世界模型初创企业World Labs。
英伟达(Nvidia)首席执行官黄仁勋(Jensen Huang)曾表示,世界模型有助于解锁“物理AI ”,以便自主驾驭机器人、自动驾驶汽车之类。
尽管促成大语言模型和ChatGPT的AI类型目前备受关注,但基于世界模型的AI正在前沿研究中获得良好发展势头,并可能让技术在我们的生活中扮演新角色。
目前尚不清楚所有这些押注是否会带来商业领袖们预测的超级智能。但短期内,世界模型或可使AI在目前力所不及的任务上做得更好,尤其是在空间推理领域。
优步(Uber)前AI业务负责人、经常批评当前AI模式的加里·马库斯(Gary Marcus)表示,如今的生成式AI无论接受多少数据训练,都只能学习到一个关于世界如何运作的概率模型。从根本上说,当今的AI会学习所有被“喂”给它们的数据之间有何相关性——无论这些数据是文字和图像,还是分子及其功能。这种对世界模糊的近似认知,似乎是以一种混合物的形式编码在AI的“大脑”之中:既包含数据,也包含一套用于操控数据的庞杂规则,这套规则还常常不完整,甚至自相矛盾。
一个很好的例子是:一台运行1979年程序的雅达利(Atari) 2600游戏机下国际象棋可以击败顶尖的聊天机器人。这些聊天机器人往往会尝试犯规的棋步,而且很快就会搞不清棋子的位置。从本质上讲,当今基于Transformer架构的AI是在做预测,而不是进行逻辑推理。尽管在训练中接触了无数的棋局和规则手册,但它们依然如此。雅达利之所以能赢,是因为它通过一种古旧简朴的内部世界模型——一个数据库——来准确记录棋子的位置。
也有能在国际象棋对弈中击败雅达利游戏机以及任何在世棋手的AI。谷歌(Google)于2019年发布的MuZero,在构建方式上与后来的生成式AI机器人截然不同。它通过学习如何为所玩的棋局创建准确的表征而获得成功。
但涉及现实世界中的任务又当如何呢?现实世界远比受限的游戏世界复杂得多。为了应对这些挑战,谷歌DeepMind的研究人员着手打造一个系统,寻求以前所未有的逼真程度实现对现实世界的模拟。
其成果Genie 3——目前仍处于研究预览阶段,尚未对公众开放——仅凭一段文本提示,就能生成逼真度堪比照片的开放世界虚拟景观。不妨把Genie 3理解为一种生成开放世界视频游戏的方法,不仅生成速度极快,还能根据你的需要随意调整逼真程度。这个虚拟空间可供初生的AI无休止地玩耍、犯错,并学习为实现其目标需要做什么,就像动物或人类年幼时在现实世界中所做的那样。这个实验过程被称为强化学习。
该项目联合负责人杰克·帕克-霍尔德(Jack Parker-Holder)表示,Genie 3是一个系统的组成部分,该系统有望帮助训练那种有朝一日可驾驭机器人、自动驾驶汽车等“具身”AI的AI。他补充说,相关环境可能充满人和障碍物:AI可以通过观察人类在这个虚拟空间中的活动来学习如何与人类互动。
关于虚拟环境中人们如何运作,可能已经有了堪称海量的数据来源,Medal.tv就是一例,该服务可以捕捉游玩过程和用户在游戏内的行为。事实可能会证明,对于试图把AGI以及可驾驭机器人的AI变为现实的各个前沿AI实验室来说,这些数据来源有极大的用处和价值。最终,在虚拟环境中进行的所有这些学习不仅可能让聊天机器人变得更智能,或许还会带来能够在现实世界中安全运作的系统。
Waabi
总部位于多伦多的Waabi公司构建了一个名为Waabi World的完整世界,专门用于训练AI驾驶卡车。让它们在模拟中反复经历磕撞,比在现实世界中哪怕只尝试一次要安全得多(代价也小得多)。该公司首席执行官拉克尔·乌尔塔孙(Raquel Urtasun)表示,AI由此能够记录数百万英里的虚拟驾驶里程。她补充说,预计到今年年底,Waabi的软件可实现真实卡车在真实道路上的自动驾驶。
大语言模型似乎已经开始承担白领工作中的一些职能,而具备世界模型智慧的AI可能会让它们有更大的用武之地。蓝领工作此前相对安全。但随着AI开发者不断发力世界模型,机器人可能会开始申请卡车司机、水管工或护工等工作。
■
相关内容+ 更多
相关内容
+ 更多
读者评论OR+ 更多
读者评论
OR
+ 更多
在移动设备生成「OR新媒体」
app:
特别报道+ 更多
特别报道
+ 更多
最受欢迎
OR
+
分享:
最新资讯
OR
+
OR品牌理念
+
■ 或者, 留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。
■ OR 新媒体是一个提供时政、经济、文化、科技等多领域资讯的平台,旨在为用户提供优质的阅读体验。网站的网址是oror.vip,用户可以通过浏览器在台式电脑 、笔记本电脑 、平板电脑 、手机访问。.......
读者评论
+