2025年11月21日,小米公司正式发布并全面开源其跨域具身大模型MiMo-Embodied,标志着业界首个成功打通自动驾驶与具身智能的基座模型问世。该模型及相关权重已同步上线Hugging Face与arXiv平台,为全球开发者和研究人员提供开放研究与应用基础。
MiMo-Embodied模型的核心亮点在于其统一的架构设计,能够同时支持具身智能与自动驾驶两大关键领域的多项任务。在具身智能方面,它涵盖可供性推理、任务规划和空间理解;在自动驾驶方面,则支持环境感知、状态预测和驾驶规划,从而实现了室内交互与道路决策的统一建模。
小米方面介绍,该模型验证了室内交互能力与道路决策能力之间的知识迁移协同效应,为跨场景智能融合提供了新思路。此外,MiMo-Embodied采用了“具身/自驾能力学习→CoT推理增强→RL精细强化”的多阶段训练策略,显著提升了其在真实环境中的部署可靠性。
在性能表现上,MiMo-Embodied在涵盖感知、决策与规划的29项核心基准测试中,全面超越现有开源、闭源及专用模型,确立了开源基座模型的新性能标杆。具体而言,它在具身智能领域17项Benchmark上取得了SOTA(State-Of-The-Art)成绩,并在自动驾驶领域12项Benchmark上刷新了最佳记录,同时在通用视觉语言任务上展现出卓越的泛化能力。
小米计划将MiMo-Embodied模型率先应用于其自研产品中,包括扫地机器人、工厂AGV(自动导引车)以及小米SU7高阶智能驾驶系统。预计从2026年第一季度起,相关功能将通过OTA(Over-The-Air)更新推送到用户设备。同时,小米也将开放模型API,旨在向家居、移动出行和制造业等领域的开发者提供这一跨域智能底座,共同推动多场景智能融合发展。