世界模型成AGI关键算力成本、数据质量成两大桎梏

2025-06-06

6月6日上午，2025北京智源大会上，北京智源人工智能研究院正式发布“悟界”系列大模型，集中展示了其在物理通用人工智能（AGI）领域的最新科研成果。此次发布的模型矩阵涵盖全球首个原生多模态世界模型“悟界•Emu3”、脑科学多模态通用基础模型“悟界•见微Brainμ”、具身大脑RoboBrain 2.0及全原子微观生命模型OpenComplex2，标志着中国在AI底层技术领域迈出关键一步。

“悟界•Emu3”：多模态统一理解的突破
作为系列核心成果之一，“悟界•Emu3”于2024年10月首次亮相，其技术路线彻底颠覆传统多模态模型架构。基于“下一个token预测”范式，Emu3无需依赖扩散模型或组合式架构，而是通过新型视觉tokenizer将图像、视频编码为与文本同构的离散符号序列，构建起模态无关的统一表征空间。这一创新使得模型能够直接实现文本、图像、视频的任意组合理解与生成，例如将“描述一幅画”与“生成一段视频”无缝衔接，验证了自回归框架在多模态领域的普适性。