李飞飞的反共识判断:单纯大语言模型,走不通AGI之路
日期:2026-02-06 19:21:49 / 人气:2
2月4日,思科(Cisco)AI峰会上,作为这一轮生成式AI浪潮核心奠基者之一的李飞飞,以World Labs创始人的身份披露了首款空间智能产品Marble的技术细节。在大语言模型风靡全球、巨头争相押注参数竞赛的当下,她再次抛出了极具冲击力的反共识观点:单纯的大语言模型无法通往AGI(通用人工智能)。
这一判断打破了行业内“参数越大、模型越智能”的固有认知,也为陷入同质化竞争的AI行业,指出了一条截然不同的发展路径——补齐空间智能的短板,构建具有物理一致性的世界模型,让AI走出数字像素,真正与三维物理世界互动。李飞飞的这场访谈,不仅拆解了其反共识判断的核心逻辑,更勾勒出了AI通往AGI的另一种可能。
一、反共识核心:语言不是智能的全部,更非AGI的基石
李飞飞的反共识,始于对“智能本质”的重新审视——她跳出了AI行业的技术惯性,从生物进化的宏观视角,重构了智能发展的底层逻辑。在她看来,当前大语言模型的狂欢,本质上是陷入了“语言至上”的认知误区。
“语言在生物进化史上只是最近50万年的产物,而视觉与触觉所代表的空间智能,早在5亿年前的寒武纪就开启了神经系统的演化竞赛。”这是李飞飞反共识判断的核心依据。她进一步解释,早在15亿年前,动物就开始感知光线、触摸环境,进而产生触觉、视觉、本能与知觉,正是这种与物理世界的身体接触,开启了神经系统的发育,推动了生物进化的军备竞赛。
反观语言,作为一种相对“新颖”的智能形式,其历史仅占生物智能演化史的极小一部分。李飞飞直言,如果AI只有语言能力,缺乏对三维物理世界的理解、推理和互动能力,缺乏物理直觉,它将被永远困在数字世界的像素中,无法真正拥有“智能”,更不可能通往AGI。
这一观点直击当前大语言模型的核心局限:无论是豆包、ChatGPT还是Gemini,即便能实现流畅的对话、精准的文本生成,甚至模拟情绪陪伴,本质上仍只是在“处理语言”,而非“理解世界”。它们能读懂文字的语义,却无法感知物体的重量、形状,无法理解空间的距离、方位,更无法像人类一样,基于物理直觉做出判断——这正是李飞飞所强调的,AI最急需补齐的“感知短板”。
二、破局之路:Marble与世界模型,重构AI的空间感知能力
带着“单纯大语言模型无法通往AGI”的判断,李飞飞创办的World Labs,走出了一条与OpenAI截然不同的路径:不追逐参数竞赛,而是聚焦空间智能,构建具有物理一致性的世界模型,其首款产品Marble,便是这一理念的具象化落地。
与当前热门的Sora等视频生成模型不同,Marble作为前沿空间智能模型,核心优势并非“视觉逼真度”,而是“物理一致性”与“可交互性”。它能接收句子、图片、视频、简单3D输入等多模态提示,将其转化为一个完全可导航、可交互且具有永久一致性的3D世界——这意味着,它生成的不是一段转瞬即逝的像素动画,而是一个拥有真实几何结构、物理属性的虚拟空间,用户可以在其中自由漫游、完成交互。
这种“物理一致性”,正是李飞飞眼中世界模型的核心。例如,在Marble生成的空间中,物体的重力、体积、碰撞逻辑都符合现实世界的物理规律,不会出现“物体悬浮”“尺寸错乱”的情况。目前,Marble已在多个领域落地应用:游戏开发中可快速构建虚拟场景,影视特效(VFX)中可实现沉浸式虚拟制作,机器人训练中可搭建模拟环境,室内设计中可快速呈现3D方案;更令人意外的是,临床研究人员还将其用于强迫症治疗,通过生成特定触发环境(如脏乱的洗衣房),为患者提供暴露疗法。
李飞飞强调,Marble仍处于起步阶段,却是World Labs探索空间智能的重要一步。其核心目标,是让AI拥有“理解3D、4D物理世界”的能力,补上感知短板——这不是对大语言模型的否定,而是对AI智能的“补全”,唯有语言智能与空间智能结合,AI才能真正摆脱数字枷锁,向AGI靠近。
三、关键预判:合成数据成熟后,世界模型将迎来爆发
当前,世界模型的发展速度远不及大语言模型,这也是很多人质疑李飞飞反共识判断的核心原因。对此,李飞飞给出了清晰的解释:核心瓶颈不在于技术,而在于“数据的信噪比”。
她坦言,大语言模型的快速发展,得益于文本数据的天然优势——文本数据清晰、语义明确,且可在互联网上大规模获取,无需复杂处理就能用于模型训练。而物理世界的数据(像素、体素)则充满噪音,且难以大规模采集,例如,要获取一个物体的完整3D数据、不同场景下的物理交互数据,成本极高、效率极低,这也导致世界模型的规模化发展受到制约。
为突破这一困境,World Labs采取了“混合数据策略”:整合互联网现有的文本、图像、视频数据,结合仿真模拟数据(合成数据),再补充真实世界采集的数据,形成“三层数据支撑”。李飞飞预判,随着合成数据技术的成熟,这一困境将被彻底打破,世界模型即将迎来类似大语言模型(LLM)的Scaling Law(规模定律)爆发时刻。
这一预判并非空穴来风。近期,微软亚洲研究院推出的SYNTHLLM框架,已能大规模生成多样化合成数据,并通过实验证实了合成数据遵循修正的规模法则,为模型训练提供了可预测性依据,这也印证了李飞飞的判断——合成数据将成为世界模型突破的关键推手。与此同时,Emu3.5模型首次揭示多模态Scaling Law,标志着世界模型的研究已从“炼金术”时代进入可预测、可工程化的工程时代,进一步佐证了李飞飞对世界模型爆发的预判。随着算力提升、芯片进步,以及合成数据形成“生成-训练-优化”的飞轮效应,世界模型的发展速度将大幅提升。
四、延伸思考:通用机器人是AI皇冠,AI终局是赋能文明的基础设施
在访谈中,李飞飞还分享了两个极具启发的观点,进一步完善了其反共识判断的底层逻辑,也勾勒出了AI的未来图景。
其一,通用机器人才是AI技术的皇冠。大众普遍认为,自动驾驶是AI技术的最高体现,但李飞飞却提出了相反的观点:自动驾驶与通用机器人的逻辑完全相反,后者的技术维度更高。她解释,自动驾驶本质上是“2D逻辑”——汽车可看作是在二维平面移动的方块,核心任务是避障,只要不碰到物体就是胜利;而通用机器人是“3D逻辑”,核心任务是“接触”,它需要在三维空间中,以不破坏物体的方式完成精准操作,既要理解空间方位,也要掌握物理力度,难度远超自动驾驶。李飞飞坦言,通用机器人是极具挑战性的难题,但也是空间智能落地的核心场景,更是AI通往AGI的重要标志。
其二,AI的终局是成为“新的电力”,成为赋能文明的基础设施。面对当前行业内“AI毁灭人类”与“技术乌托邦”的极化争论,李飞飞表现出了科学家的审慎与人文关怀。她将AI比作一百多年前的电力:电力的成功,不是因为搭建了庞大的电网,而是因为它点亮了学校的灯、驱动了工厂的机器、延长了人类的寿命,真正赋能了生活与文明;同理,AI的成功,不在于模型参数有多大,不在于能生成多么逼真的文本或视频,而在于它能否像电力一样,渗透到医疗健康、农业制造、教育等各个垂直行业,成为赋能文明的基础设施,让每一个体都能获得尊严与幸福。
五、结语:反共识的价值,是为AI开辟另一条可能之路
李飞飞的反共识判断,并非刻意“唱反调”,而是对AI行业发展的理性反思。在大语言模型陷入同质化竞争、参数竞赛愈演愈烈的当下,很多企业和研究者忽略了“智能的本质”——智能不是“会说话”,而是“会理解、会互动、会感知”。单纯的大语言模型,无论参数多大,都只是“数字世界的智者”,无法真正走进物理世界,更无法通往AGI。
她创办World Labs,推出Marble,倡导发展空间智能,本质上是希望为AI行业开辟另一条可能之路:不追逐短期的技术热点,不陷入单一的参数竞赛,而是回归智能的本源,补齐感知短板,让AI真正“读懂世界、融入世界”。正如她在访谈结尾所说,World Labs的目标,是让空间智能技术真正进入医疗健康、农业制造等各个垂直行业,希望在2026年,能看到拥有空间智能的AI,真正走出屏幕,与物理世界产生美妙的交互。
李飞飞的反共识,不仅为AI通往AGI提供了全新的思路,更提醒着整个行业:技术的发展,需要跟风的勇气,更需要独立思考的清醒。在AI技术飞速迭代的今天,唯有打破固有认知,回归本质、深耕核心,才能让AI真正赋能人类、赋能文明——这,或许就是李飞飞反共识判断的最大价值。
作者:杏悦2娱乐
新闻资讯 News
- 想靠心理咨询赚外快的年轻人,正...02-06
- 亚马逊交出史上最强业绩,股价却...02-06
- 软件股崩盘启示录:当AI 让代码...02-06
- 李飞飞的反共识判断:单纯大语言...02-06

