分享:
 OR 新媒oror.vip跨平台阅读首选
在移动设备生成「OR新媒体」

app

访问「OR新媒体」官网( oror.vip ,点击共享按钮,选择“添加到主屏幕”即可。
2026-01-22 15:04
科技

当AI开始“一本正经地胡说八道”:全球大模型竞逐中的隐性风险

蒋镇辉:大语言模型的“幻觉”正迅速成为全球技术竞赛的新焦点,“幻觉”并非无关紧要的技术小瑕疵,而是AI真正走向专业化、产业化应用的关键阻力。
ai人工智能传奇数学家为何“出走”学界,加入24岁小将创办的AI初创公司?

大语言模型如今正日益渗透到知识生产、商业分析、法律咨询与医疗决策等核心领域,一个过去常被视为技术性缺陷的问题,正迅速成为全球技术竞赛的新焦点:大语言模型的“幻觉”(Hallucination)——即模型在缺乏事实依据时,仍然以极高“信心”给出流畅、却虚假的答案。从中美科技巨头到全球初创企业,过去几年大模型的竞争主要围绕参数规模、运行速度与通用能力展开;而今,一个更具决定性的维度正在浮现:谁能更系统、更有效地控制幻觉,谁就将率先迈向“可信赖AI”(Trustworthy AI)的时代。

“幻觉”并非无关紧要的技术小瑕疵,而是AI真正走向专业化、产业化应用的关键阻力。在现实世界中,学生论文中无中生有的文献引用,金融分析中被编造的并购事件、法律咨询中一个子虚乌有的判例、医学报告中混淆的症状描述,都可能引发严重的经济或生命后果。

系统性风险揭示:香港大学 AIEL 测评洞察

为了更系统地了解这一隐性风险,香港大学人工智能评估实验室(AIEL)近期针对37个中美主流大模型进行了大规模测评,覆盖通用、推理、自动化系统等多种模型类型。测评结果不仅揭示了头部模型在可靠性上的新格局,也暴露了当前技术发展中仍未解决的根本性挑战。

幻觉的两个核心维度

本次测评将大模型的“幻觉”风险主要划分为两大类:

事实性幻觉(Factual Hallucination):模型“说得像真的,但其实是假的”

这是大模型机制带来的天然风险。当模型面对不确定信息时,它往往倾向于“编造”一个逻辑完整的回应,而非回答“我不知道”。这类幻觉包括:生成不存在的学术文献;无依据地描述历史事件;对未知概念作出看似逻辑完整却错误的解释等。由于其机制根源,事实性幻觉被视为最难真正消除的幻觉类型。

忠实性幻觉(Fidelity Hallucination):模型“却未完全按照指令完成任务”

这包括模型未能按要求控制格式、遗漏了指令中的关键信息、或擅自引入了文本外的信息等。尽管随着模型能力的提升,这类幻觉整体有所下降,但它仍是AI进入医疗、司法等强监管、高规范行业的主要障碍。

测评结果揭示,目前领先大模型在忠实性幻觉控制上已相当不错。例如,GPT-5系列在忠实性维度均取得满分,显示出卓越的任务遵循能力。然而,事实性准确度方面(GPT-5思考模式得分小于75分)仍有提升空间。这反映出大模型普遍存在“严守指令但易虚构事实”的倾向——事实可靠性依然是全球大模型的共同短板。

此外,我们还发现推理模型的幻觉控制能力表现较好。例如,通义千问3(思考模式)和Claude 4 Opus(思考模式)等推理模型的幻觉控制能力,均优于同系列通用版本。这表明,让模型进行深度的、多步骤的“思考”是当前控制幻觉最有效的技术手段之一。

AI的下一场革命不是生成,而是可靠

随着大模型向多模态与专业化方向纵深发展,“幻觉风险”已从学术议题演变为产业落地的红线。在医疗诊断或金融风控中,稳定、一致、可验证的答案远比“像人类的表达”更具商业价值。当大模型被引入公共治理与生命健康等高风险领域,衡量其价值的标尺已不仅再是“它能否回答”,而是:它的回答能否被托付给真实世界。

幻觉控制,这一曾被低估的能力,正在成为全球大模型竞争中的关键分水岭。下一阶段的技术分化,或许不在于生成得多快、多像人,而在于:何时,它值得被真正相信。


本文仅代表作者个人观点。

撰文:蒋镇辉

相关内容

  • ai人工智能传奇数学家为何“出走”学界,加入24岁小将创办的AI初创公司?


ai人工智能传奇数学家为何“出走”学界,加入24岁小将创办的AI初创公司?
2026-01-22 15:04
科技

当AI开始“一本正经地胡说八道”:全球大模型竞逐中的隐性风险

蒋镇辉:大语言模型的“幻觉”正迅速成为全球技术竞赛的新焦点,“幻觉”并非无关紧要的技术小瑕疵,而是AI真正走向专业化、产业化应用的关键阻力。

大语言模型如今正日益渗透到知识生产、商业分析、法律咨询与医疗决策等核心领域,一个过去常被视为技术性缺陷的问题,正迅速成为全球技术竞赛的新焦点:大语言模型的“幻觉”(Hallucination)——即模型在缺乏事实依据时,仍然以极高“信心”给出流畅、却虚假的答案。从中美科技巨头到全球初创企业,过去几年大模型的竞争主要围绕参数规模、运行速度与通用能力展开;而今,一个更具决定性的维度正在浮现:谁能更系统、更有效地控制幻觉,谁就将率先迈向“可信赖AI”(Trustworthy AI)的时代。

“幻觉”并非无关紧要的技术小瑕疵,而是AI真正走向专业化、产业化应用的关键阻力。在现实世界中,学生论文中无中生有的文献引用,金融分析中被编造的并购事件、法律咨询中一个子虚乌有的判例、医学报告中混淆的症状描述,都可能引发严重的经济或生命后果。

系统性风险揭示:香港大学 AIEL 测评洞察

为了更系统地了解这一隐性风险,香港大学人工智能评估实验室(AIEL)近期针对37个中美主流大模型进行了大规模测评,覆盖通用、推理、自动化系统等多种模型类型。测评结果不仅揭示了头部模型在可靠性上的新格局,也暴露了当前技术发展中仍未解决的根本性挑战。

幻觉的两个核心维度

本次测评将大模型的“幻觉”风险主要划分为两大类:

事实性幻觉(Factual Hallucination):模型“说得像真的,但其实是假的”

这是大模型机制带来的天然风险。当模型面对不确定信息时,它往往倾向于“编造”一个逻辑完整的回应,而非回答“我不知道”。这类幻觉包括:生成不存在的学术文献;无依据地描述历史事件;对未知概念作出看似逻辑完整却错误的解释等。由于其机制根源,事实性幻觉被视为最难真正消除的幻觉类型。

忠实性幻觉(Fidelity Hallucination):模型“却未完全按照指令完成任务”

这包括模型未能按要求控制格式、遗漏了指令中的关键信息、或擅自引入了文本外的信息等。尽管随着模型能力的提升,这类幻觉整体有所下降,但它仍是AI进入医疗、司法等强监管、高规范行业的主要障碍。

测评结果揭示,目前领先大模型在忠实性幻觉控制上已相当不错。例如,GPT-5系列在忠实性维度均取得满分,显示出卓越的任务遵循能力。然而,事实性准确度方面(GPT-5思考模式得分小于75分)仍有提升空间。这反映出大模型普遍存在“严守指令但易虚构事实”的倾向——事实可靠性依然是全球大模型的共同短板。

此外,我们还发现推理模型的幻觉控制能力表现较好。例如,通义千问3(思考模式)和Claude 4 Opus(思考模式)等推理模型的幻觉控制能力,均优于同系列通用版本。这表明,让模型进行深度的、多步骤的“思考”是当前控制幻觉最有效的技术手段之一。

AI的下一场革命不是生成,而是可靠

随着大模型向多模态与专业化方向纵深发展,“幻觉风险”已从学术议题演变为产业落地的红线。在医疗诊断或金融风控中,稳定、一致、可验证的答案远比“像人类的表达”更具商业价值。当大模型被引入公共治理与生命健康等高风险领域,衡量其价值的标尺已不仅再是“它能否回答”,而是:它的回答能否被托付给真实世界。

幻觉控制,这一曾被低估的能力,正在成为全球大模型竞争中的关键分水岭。下一阶段的技术分化,或许不在于生成得多快、多像人,而在于:何时,它值得被真正相信。


本文仅代表作者个人观点。

撰文:蒋镇辉

相关内容

  • ai人工智能传奇数学家为何“出走”学界,加入24岁小将创办的AI初创公司?


 

读者评论
OR

在移动设备生成「OR新媒体」

app

访问「OR新媒体」官网( oror.vip ,点击共享按钮,选择“添加到主屏幕”即可。

特别报道

最受欢迎
OR
+

分享:
最新资讯
OR
+
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ OR新媒体是聚焦政经、商业、金融与科技领域的权威数字媒体。我们以深度内容和专业洞察系统解读全球趋势,提供高价值资讯,打造财经领域“必读”平台。
■ 平台官网 oror.vip 支持全终端访问,无论您使用台式机、笔记本、平板或手机,我们均可提供流畅优质的无缝阅读体验。



读者评论
+