小米开源首代机器人VLA大模型

ztb · 2026 年2 月 12 日 07:40

作者：财联社| 发布时间：2026-02-12 11:53:45

【研报】小米首款开源VLA大模型Xiaomi-Robotics-0发布：物理智能迎“大脑+小脑”双进化，具身智能商业化提速

摘要
2026年2月12日，小米正式宣布开源首代机器人VLA（视觉-语言-动作）大模型——Xiaomi-Robotics-0。该模型拥有47亿参数，通过创新的MoT（混合Transformer）架构与异步推理模式，成功突破了具身智能在物理世界中“推理延迟”与“动作断层”的核心痛点。目前，该模型已在多项主流仿真测试中刷新SOTA（行业最高水平）纪录，并支持在消费级显卡上实现实时推理，标志着具身智能向大规模商业化应用迈出关键一步。

一、核心架构：MoT架构实现“大脑”与“小脑”的协同
Xiaomi-Robotics-0 采用了领先的 Mixture-of-Transformers (MoT) 混合架构，完美解决了通用理解与精细控制的平衡难题：

视觉语言大脑（VLM）： 作为底座负责深度理解人类模糊指令及空间关系，确保机器人“听得懂、看得到”。
动作执行小脑（Action Expert）： 嵌入多层 Diffusion Transformer (DiT)，利用流匹配（Flow-matching）技术生成高频、平滑的“动作块”，确保执行端的“快与准”。
技术突破： 引入 Action Proposal 机制，强迫模型在理解图像的同时预测动作分布，实现了特征空间与动作空间的深度对齐。

二、训练与推理创新：破解“动作断层”硬伤
针对机器人真机运行中的迟滞问题，小米团队提出了两项核心优化策略：

异步推理模式： 让模型推理与机器人运行脱离同步约束。这种异步执行机制保障了机器人在执行长周期任务（如叠毛巾、积木拆解）时的连贯性与灵敏度。
反应性物理智能强化：
- Clean Action Prefix： 通过输入前一时刻动作，确保轨迹在时间维度上连续、不抖动。
- Λ-shape Attention Mask： 特殊注意力掩码机制强制模型聚焦当前视觉反馈，弱化历史惯性，使其在面对突发环境变化时具备极强的实时反应能力。

三、性能表现：全面刷新行业Benchmark
Xiaomi-Robotics-0 在多维度测评中均表现出统治力：

仿真领域： 在 LIBERO、CALVIN 和 SimplerEnv 三大主流仿真测试中，从30余种竞品模型中脱颖而出，均取得最优成绩（SOTA）。
真机实战： 在双臂机器人平台上，针对积木拆解等高难度任务，展现出极高的手眼协调性。
硬件兼容性： 该模型已实现在消费级显卡上的实时推理，极大降低了具身智能的开发与部署门槛。

结论
行业影响： 小米 Xiaomi-Robotics-0 的开源，不仅展示了其在具身智能领域深厚的技术积淀，更通过提供“大脑+小脑”的成熟方案，有望统一当前碎片化的机器人算法标准。
投资逻辑： 随着VLA大模型进入开源时代，具身智能的泛化能力将迎来质的飞跃。建议关注：

小米产业链相关核心供应商；
具备高性能算力适配方案的硬件厂商；
布局柔性执行器及高精度传感器的零部件龙头。

风险提示： 物理环境复杂度超预期；开源生态建设进度不及预期。

延伸阅读
原文链接

话题	回复	浏览量
雷军公布小米机器人最新进展：兼具视觉语言理解与实时执行能力题材逻辑	3	2026 年2 月 12 日
不要小瞧机器人的羁绊！Figure AI发布能“双机协作”的端侧大模型题材逻辑	4	2025 年2 月 20 日
各大论坛 AI News 2025-04-30 06:19 - 2025-04-30 12:19 AI资讯	12	2025 年4 月 30 日
颠覆传统机器人应用开发模式北京发布全球首个通用具身智能平台“慧思开物” 题材逻辑	3	2025 年3 月 12 日
[爱建证券]全球人形机器人行业产业周报（二）：产业化提速，标准体系与应用落地共振热门研报	2	2026 年3 月 9 日

小米开源首代机器人VLA大模型

【研报】小米首款开源VLA大模型Xiaomi-Robotics-0发布：物理智能迎“大脑+小脑”双进化，具身智能商业化提速

相关话题