2025-11-18 11:01
科技
马斯克Grok 4.1双冠封王,爆冲第一,AI王座一夜易主+ 查看更多
马斯克Grok 4.1双冠封王,爆冲第一,AI王座一夜易主
+ 查看更多
谷歌Gemini被拉下神坛。
新智元
+ 查看更多
■
AI新王来了!马斯克Grok 4.1静默上线,一夜之间登顶LMArena,Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线,算力又扩增一个数量级。
AI王座,一夜易主!
一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。
有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。
这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。
在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。
Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。
不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。
在EQ-Bench上,以1586 Elo成绩登顶。
同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。
Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。
实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。
Grok 4.1,王者归来!
AI王座,一夜易主!
一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。
有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。
这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。
在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。
Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。
不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。
在EQ-Bench上,以1586 Elo成绩登顶。
同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。
Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。
实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。
Grok 4.1,王者归来!
如今, Grok 4.1已在网页端和iOS、Android中免费上线。目前,还是beta版本。
在创意表达、情绪交流和协作互动上,Grok 4.1表现尤为出色。
它能精准捕捉细微的意图,让对话更自然、更有温度。
与此同时,Grok 4.1的整体人格更加一致,既保持了上一代那种犀利、可靠的智能表现,又增添几分亲和力。
在Colossus大规模RL算力引擎上,xAI将重点放在了风格、个性、助人程度和对齐性的优化。
为此,他们还开发了一条全新的方法,利用前沿AI 智能体推理模型作为奖励模型,自动、大规模评估和优化Grok 4.1回答质量。
前两周的时间,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中展开密集的「盲测」成对评估。
与上一代相比,人们在64.78%的情况下,更倾向于使用 Grok 4.1。
最强通用能力
最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中,刷新业界SOTA。
在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举冲上第一,比最高的非xAI模型高出31分。
它的非推理模式(代号:tensor),无需使用思考Token就能即时响应,拿下了1465 Elo,位居第二。
值得一提的是,Grok 4.1在不思考的情况下,就能超过所有其他模型开启全推理后的表现。
相比之下,Grok 4的总体排名是第33名,差距显著。
这一代的进步,堪称跨越。
xAI研究员Dustin Tran表示,关闭推理后,输出Token数从约2300掉到850,即便如此,Grok 4.1也排在了榜单前面。
EQ爆了
不仅如此, Grok 4.1在情绪智能上也达到了一个新高度。
在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。
EQ-Bench是一个由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。
测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。
基准会从多个维度打分,并通过成对比较计算规范化Elo排名。
幻觉暴降3倍
在幻觉方面,Grok 4.1幻觉率比上一代暴降3倍。
使用搜索工具的快速(非推理)模型能给出迅捷答案,但因为推理深度有限、工具调用次数受限,容易在事实问题上出错。
在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。
随后,我们在生产环境的真实样本中观察到幻觉率明显下降。
团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。
■
相关内容+ 更多
相关内容
+ 更多
新智元
+ 查看更多
■
AI新王来了!马斯克Grok 4.1静默上线,一夜之间登顶LMArena,Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线,算力又扩增一个数量级。
AI王座,一夜易主!
一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。
有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。
这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。
在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。
Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。
不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。
在EQ-Bench上,以1586 Elo成绩登顶。
同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。
Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。
实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。
Grok 4.1,王者归来!
AI王座,一夜易主!
一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。
有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。
这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。
在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。
Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。
不仅如此,Grok 4.1情商同样爆表,具备了更高的情绪智能、共情能力和人际互动能力。
在EQ-Bench上,以1586 Elo成绩登顶。
同时,在写作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻觉率比之前模型暴降3倍。
Grok 4.1之所以可以迅猛进化,xAI团队将其后训练阶段的RL规模,又扩大了一个数量级。
实属没想到,在谷歌Gemini 3.0降临之前,马斯克来了一波大的。
Grok 4.1,王者归来!
如今, Grok 4.1已在网页端和iOS、Android中免费上线。目前,还是beta版本。
在创意表达、情绪交流和协作互动上,Grok 4.1表现尤为出色。
它能精准捕捉细微的意图,让对话更自然、更有温度。
与此同时,Grok 4.1的整体人格更加一致,既保持了上一代那种犀利、可靠的智能表现,又增添几分亲和力。
在Colossus大规模RL算力引擎上,xAI将重点放在了风格、个性、助人程度和对齐性的优化。
为此,他们还开发了一条全新的方法,利用前沿AI 智能体推理模型作为奖励模型,自动、大规模评估和优化Grok 4.1回答质量。
前两周的时间,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中展开密集的「盲测」成对评估。
与上一代相比,人们在64.78%的情况下,更倾向于使用 Grok 4.1。
最强通用能力
最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中,刷新业界SOTA。
在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举冲上第一,比最高的非xAI模型高出31分。
它的非推理模式(代号:tensor),无需使用思考Token就能即时响应,拿下了1465 Elo,位居第二。
值得一提的是,Grok 4.1在不思考的情况下,就能超过所有其他模型开启全推理后的表现。
相比之下,Grok 4的总体排名是第33名,差距显著。
这一代的进步,堪称跨越。
xAI研究员Dustin Tran表示,关闭推理后,输出Token数从约2300掉到850,即便如此,Grok 4.1也排在了榜单前面。
EQ爆了
不仅如此, Grok 4.1在情绪智能上也达到了一个新高度。
在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。
EQ-Bench是一个由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力以及人际交往能力。
测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。
基准会从多个维度打分,并通过成对比较计算规范化Elo排名。
幻觉暴降3倍
在幻觉方面,Grok 4.1幻觉率比上一代暴降3倍。
使用搜索工具的快速(非推理)模型能给出迅捷答案,但因为推理深度有限、工具调用次数受限,容易在事实问题上出错。
在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。
随后,我们在生产环境的真实样本中观察到幻觉率明显下降。
团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。
■
相关内容+ 更多
相关内容
+ 更多
读者评论OR+ 更多
读者评论
OR
+ 更多
在移动设备生成「OR新媒体」
app:
特别报道+ 更多
特别报道
+ 更多
最受欢迎
OR
+
分享:
最新资讯
OR
+
OR品牌理念
+
■ 或者, 留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。
■ OR新媒体是聚焦政经、商业与科技领域的权威数字媒体。我们以深度内容和专业洞察系统解读全球趋势,提供高价值资讯,打造财经领域“必读”平台。
■ 平台官网 oror.vip 支持全终端访问,无论您使用台式机、笔记本、平板或手机,均可提供流畅优质的无缝阅读体验。
读者评论
+



















