阿里巴巴领投20亿元支持AI世界模型研发 以突破大语言模型局限
阿里巴巴云宣布,将牵头对AI初创企业ShengShu进行20亿元人民币(约合2.9亿美元)的投资,用于开发新一代“世界模型”AI技术,旨在通过视频和物理场景数据更真实地模拟现实世界,突破当前以文本为主的大型语言模型(LLM)的局限。
该投资为ShengShu的B轮融资,其他参投方包括TAL教育集团和百度风投。此前两个月,ShengShu已从启明创投等机构获得6亿元人民币融资。公司未披露最新估值。
ShengShu表示,新资金将用于构建“通用世界模型”,连接数字世界(如游戏、AI生成视频)与物理世界(如自动驾驶、机器人),通过视觉、音频、触觉等多模态数据更自然地捕捉物理世界运行机制。
公司创始人朱俊表示:“我们致力于连接感知与行动,使AI系统能够持续、一致地模拟和预测现实世界行为。”其最新发布的Vidu Q3 Pro模型在文本/图像生成视频领域位列全球前十,由Artificial Analysis评估。
ShengShu于2023年推出Vidu,早于OpenAI发布其已关闭的Sora工具。中国短视频平台快手、字节跳动也已推出类似AI视频生成工具,市场竞争加剧。
阿里巴巴近期持续加码世界模型领域:上月与百度风投共同领投Tripo AI 5000万美元,后者开发基于照片快速生成3D模型的AI平台;9月则领投PixVerse 6000万美元,后者已推出可实时控制视频生成过程的AI世界模型。
阿里巴巴还发布开源AI视频生成模型,并于2月推出用于驱动机器人的AI模型,显示其在AI物理交互领域的全面布局。
美国科技杂志《Wired》联合创始人凯文·凯利此前指出,世界模型对机器人技术至关重要,实现类人智能需三大要素:推理、物理世界理解与持续学习。当前大语言模型已部分满足“知识”要素,而“物理世界理解”正是世界模型的核心突破方向。
编辑点评
此次阿里巴巴对ShengShu的巨额投资,标志着中国科技巨头正系统性转向‘世界模型’技术路线,以应对大语言模型在物理交互、实时感知等领域的固有短板。此举不仅呼应了全球AI从‘文本智能’向‘物理智能’演进的大趋势,更凸显中国在AI基础设施与应用场景融合上的战略布局。世界模型对自动驾驶、工业机器人、服务机器人等领域具有颠覆性意义,可能重塑全球AI产业链分工。同时,阿里与百度、TAL等机构的联合投资,显示出中国科技资本对‘具身智能’赛道的高度共识。长远看,若中国能在世界模型、3D生成、多模态感知等底层技术上实现突破,将可能在下一代人工智能范式中占据主导地位,对全球科技竞争格局产生深远影响。