“当下的LLM,不过是黑暗中的文字匠。”
近日,斯坦福大学教授、AI领域泰斗级人物李飞飞的一篇长文《从语言到世界:空间智能是AI的下一个前沿》,在科技圈掀起轩然大波。这位曾主导谷歌云AI、一手推动计算机视觉发展的“AI教母”,直接向当下炙手可热的大语言模型(LLM)“开炮”,同时抛出一个颠覆性观点:空间智能,才是AI突破瓶颈的核心方向。
当然,李飞飞此时发文,很可能也是为自己创办的公司 World Labs 造势。
成立于2024年4月的 World Labs,致力于攻克空间智能。它在2024年9月宣布获得2.3亿美元融资,投资者包括 a16z、英伟达、AMD、英特尔、Hinton、领英创始人 Reid Hoffman、谷歌首席科学家 Jeff Dean、谷歌前 CEO Eric Schmidt 等一众大佬。
一个多月前——也就是官宣融资一年后,World Labs 推出了空间智能模型 Marble 预览版,目前处于限量开放阶段。
据官方介绍,Marble 模型仅凭一张图片或文本提示就能生成持久存在、可无限探索的3D世界。
之前这一方向的代表是谷歌 Genie。在发布 Marble 时,李飞飞及团队曾回应称自家模型的独特之处是能生成永久持续的“世界”。用户可以随时访问已创建的世界,后续再次访问时,场景结构、细节能完全保持一致,而非短暂的交互体验。
当我们还在惊叹GPT-4的文本创作能力、沉迷AI绘画的新奇体验时,李飞飞的发声无疑给狂热的AI圈浇了一盆“清醒水”。今天,我们就来深度拆解这篇长文的核心逻辑,看看空间智能究竟藏着怎样的未来图景。
一、LLM的致命短板:懂文字,却不懂“世界”
李飞飞并不否认LLM的成就——它能写代码、撰论文、生成逼真图像,彻底改变了人类获取和处理抽象知识的方式。但在她看来,LLM的“致命伤”在于缺乏现实世界的根基,是一种“悬浮的智能”。
她在文中给出了一组扎心的对比:当让LLM估算书桌到房门的距离、想象一个魔方旋转后的形态,甚至规划简单的迷宫路线时,它的表现竟然不如随机猜测。这种对物理空间、几何关系和现实规律的“无知”,直接导致AI的落地场景被严重限制——自主机器人无法灵活应对家庭环境、AI辅助疾病治疗难以精准模拟分子结构、新材料研发更是无从谈起。
“文字只是人类认知世界的工具之一,而非全部。”李飞飞的批判直指核心:当AI只会在文字构建的虚拟世界里“自说自话”,却无法理解真实空间的运行逻辑时,所谓的“通用智能”不过是空中楼阁。
二、空间智能:人类认知的“隐形脚手架”
既然LLM有局限,那AI的下一站该去往何方?李飞飞给出的答案是——空间智能。
她将空间智能定义为“人类认知的脚手架”:这种能力不仅关乎“看”,更是感知、行动、想象与创造的交汇点。从我们每天停车入库时对距离的精准判断,到消防员在坍塌建筑中凭直觉定位幸存者;从婴儿学说话前通过触摸、爬行认识世界,到埃拉托斯特尼通过影子几何关系计算地球周长、沃森和克里克借助3D模型破解DNA结构——人类文明的每一次重大突破,几乎都离不开空间智能的支撑。
与LLM的“文字逻辑”不同,空间智能的核心是“世界逻辑”:它能理解物体的几何形态、空间位置关系,预测物理运动规律,甚至通过想象构建不存在的空间。在李飞飞看来,这才是AI从“辅助工具”升级为“共创伙伴”的关键所在。
三、突破口已现:Marble系统构建“可漫游的三维世界”
空谈概念不足以服众,李飞飞团队早已用实际成果给出了证明。她创办的World Labs在2025年推出的首个世界模型Marble,被业内誉为“空间智能落地的里程碑”。
这款系统的厉害之处在于,它能仅凭一张照片或一段文字提示,生成一个可自由漫游、几何一致、风格可控的三维世界。不同于传统3D建模需要专业人员耗时数周搭建,Marble生成的场景不仅能让用户“环顾四周”,还能探索画面之外的隐藏空间——比如根据一张客厅照片生成三维场景后,你可以“推开”卧室门,看到里面符合物理逻辑的家具摆放;输入“赛博朋克风格的老街”,它能同步还原灯光阴影、材质纹理,甚至墙面的斑驳痕迹。
Marble的底层逻辑,正是李飞飞提出的“世界模型”三大核心能力:
更关键的是,Marble解决了传统3D创作“高成本、低效率”的痛点。过去需要专业美术团队花费数月完成的影视场景搭建,现在通过简单提示就能快速生成,甚至支持无缝拼接多个场景,构建“无限扩展”的虚拟世界。
四、不止于“好玩”:空间智能的千亿级应用图景
当空间智能从实验室走向现实,它能带来的远不止“一键生成3D场景”的新奇体验。李飞飞在文中描绘了一幅横跨多领域的应用蓝图,每一个都足以颠覆行业:
1. 创造力领域:人人都是“空间设计师”
建筑师可以通过文字提示快速生成建筑雏形,再在三维场景中实时调整结构;电影导演无需搭建实体布景,就能生成符合剧情的虚拟场景,甚至让演员直接在绿幕前与AI生成的环境互动;游戏开发者更是能批量生成风格统一的关卡地图,大幅降低研发成本。
2. 机器人与自动驾驶:告别“纸上谈兵”
当前机器人之所以难以走进家庭,核心是无法精准理解家居空间的布局和物体位置。而搭载空间智能的机器人,能像人类一样“看懂”环境——避开地上的玩具、精准抓取桌上的水杯;自动驾驶系统则可利用生成的海量虚拟道路场景进行训练,大幅降低实车测试的风险和成本。
3. 科研与文化:让“不可见”变为“可触摸”
在医学领域,AI可生成人体器官的三维模型,帮助医生更直观地规划手术方案;在新材料研发中,通过模拟分子的空间结构和运动规律,加速研发进程。更值得一提的是文化遗产保护——通过几张老照片,AI就能还原古建筑的三维场景,让用户“走进”早已消失的历史空间。上海博物馆已通过类似技术实现AR实景导航,而Marble的出现,将让这种体验升级为“沉浸式穿越”。
五、AI的终极目标:不是取代人类,而是“共创世界”
在长文的结尾,李飞飞特别强调了空间智能的伦理边界:“AI的使命不是取代人类,而是增强人类的创造力。”Marble的设计逻辑也印证了这一点——它不是“一键生成后就万事大吉”,而是构建了“提示—生成—协同修改”的循环,让人类创作者始终掌握主导权。
从LLM的“文字狂欢”到空间智能的“世界构建”,AI的发展正在回归本质:技术的价值,终究要服务于人类对现实世界的认知和改造。李飞飞的发声,与其说是对LLM的批判,不如说是对AI行业的提醒——真正的前沿,从来不是在既有赛道上内卷,而是找到通往“真实世界”的入口。
当AI能像人类一样“看懂空间、想象世界”,你觉得最先被改变的会是哪个行业?欢迎在评论区留下你的观点~