2025年11月21日,小米公司正式对外发布其具身大模型MiMo-Embodied,并宣布该模型将全面开源。这一举措标志着小米在通用具身智能研究领域迈出了关键一步,旨在解决机器人与车辆认知与能力互通,以及室内作业智能与室外驾驶智能相互促进的行业难题。MiMo-Embodied被誉为业界首个成功打通自动驾驶与具身智能的跨域基座模型,实现了两大领域任务的统一建模,从而实现了从“垂直领域专用”向“跨域能力协同”的突破。
该模型拥有三大核心技术亮点。首先,MiMo-Embodied具备跨域能力覆盖,能够同步支持具身智能的三大核心任务,即可供性推理、任务规划、空间理解,以及自动驾驶的三大关键任务,即环境感知、状态预测、驾驶规划,为全场景智能提供了有力支撑。 其次,该模型验证了室内交互能力与道路决策能力之间的知识转移协同效应,为跨场景智能融合提供了新的思路。 最后,MiMo-Embodied采用“具身/自驾能力学习—CoT推理增强—RL精细强化”的多阶段训练策略,有效提升了模型在真实环境中的部署可靠性。
在性能表现方面,MiMo-Embodied在涵盖感知、决策与规划的29项核心基准测试中确立了开源基座模型的性能新标杆,全面优于现有的开源、闭源及专用模型。 具体来看,在具身智能领域,该模型在17个基准测试上取得SOTA(State-of-the-Art)成绩,重新定义了任务规划、可供性预测及空间理解的能力边界。 在自动驾驶领域,MiMo-Embodied在12个基准测试中表现卓越,实现了环境感知、状态预测与驾驶规划的全链路性能突破。 此外,在通用视觉语言领域,MiMo-Embodied也展现了卓越的泛化性,在夯实通用感知与理解能力的同时,进一步在多项关键基准上实现了显著的性能跃升。
小米已将MiMo-Embodied的模型和权重同步上线Hugging Face和arXiv平台,向全球开发者和研究人员开放。 小米计划将MiMo-Embodied率先应用于自研扫地机器人、工厂AGV以及小米SU7高阶智驾系统,预计将于2026年第一季度通过OTA推送。同时,小米也将开放模型API,为家居、移动出行、制造业等领域的开发者提供跨域智能底座。