6月6日上午,2025北京智源大会上,北京智源人工智能研究院正式发布“悟界”系列大模型,集中展示了其在物理通用人工智能(AGI)领域的最新科研成果。此次发布的模型矩阵涵盖全球首个原生多模态世界模型“悟界•Emu3”、脑科学多模态通用基础模型“悟界•见微Brainμ”、具身大脑RoboBrain 2.0及全原子微观生命模型OpenComplex2,标志着中国在AI底层技术领域迈出关键一步。
“悟界•Emu3”:多模态统一理解的突破
作为系列核心成果之一,“悟界•Emu3”于2024年10月首次亮相,其技术路线彻底颠覆传统多模态模型架构。基于“下一个token预测”范式,Emu3无需依赖扩散模型或组合式架构,而是通过新型视觉tokenizer将图像、视频编码为与文本同构的离散符号序列,构建起模态无关的统一表征空间。这一创新使得模型能够直接实现文本、图像、视频的任意组合理解与生成,例如将“描述一幅画”与“生成一段视频”无缝衔接,验证了自回归框架在多模态领域的普适性。
页码:下一页