北京智源人工智能研究院于10月30日在北京正式发布了新一代多模态世界大模型Emu3.5。该模型被视为推动人工智能从单纯内容生成迈向对物理世界深层理解与预测的关键一步,开启了多模态学习的新范式。
Emu3.5的核心创新在于其统一的“下一状态预测”(Next-State Prediction, NSP)框架。与以往图像、视频、文本模型独立运作不同,Emu3.5将所有模态信息编码为统一的Token序列,并学习预测下一个世界状态,从而实现对现实世界规律的深层认知。这意味着无论输入是图片、文字还是视频帧,模型都能将其视为世界当前状态的不同表达,并推断出“下一秒”可能发生的文本续写、合理动作生成或视觉与语言的综合演化。
据智源研究院介绍,传统AI模型在理解物理世界的因果关系和动态变化方面存在局限,大多只能处理表面的像素信息,而非底层的运行规则。Emu3.5旨在解决这一“盲区”,其训练基于超过10万亿Token的大规模多模态数据,其中视频数据训练时长累计达到790年,模型参数量从80亿提升至340亿。
该模型在技术上还引入了“离散扩散自适应”(Discrete Diffusion Adaptation, DiDA)技术,显著提升了推理效率。DiDA技术能够在不牺牲性能的前提下,将每张图片的推理速度提高近20倍,使得自回归模型的生成效率媲美顶尖的闭源扩散模型。
Emu3.5展现出多项强大能力,包括长时程的视觉叙事、跨模态泛化与具身操作、智能图像编辑和时空动态推理。业内专家认为,Emu3.5是多模态大模型从“生成时代”迈向“世界模型时代”的里程碑。 未来,这项技术有望应用于机器人具身智能、自动驾驶仿真以及物理世界预测等高级场景,为通用人工智能的发展奠定基础。