小米开源首代机器人VLA大模型

:memo: 作者: 财联社| :date: 发布时间:2026-02-12 11:53:45

【研报】小米首款开源VLA大模型Xiaomi-Robotics-0发布:物理智能迎“大脑+小脑”双进化,具身智能商业化提速

摘要
2026年2月12日,小米正式宣布开源首代机器人VLA(视觉-语言-动作)大模型——Xiaomi-Robotics-0。该模型拥有47亿参数,通过创新的MoT(混合Transformer)架构异步推理模式,成功突破了具身智能在物理世界中“推理延迟”与“动作断层”的核心痛点。目前,该模型已在多项主流仿真测试中刷新SOTA(行业最高水平)纪录,并支持在消费级显卡上实现实时推理,标志着具身智能向大规模商业化应用迈出关键一步。


一、 核心架构:MoT架构实现“大脑”与“小脑”的协同
Xiaomi-Robotics-0 采用了领先的 Mixture-of-Transformers (MoT) 混合架构,完美解决了通用理解与精细控制的平衡难题:

  • 视觉语言大脑(VLM): 作为底座负责深度理解人类模糊指令及空间关系,确保机器人“听得懂、看得到”。
  • 动作执行小脑(Action Expert): 嵌入多层 Diffusion Transformer (DiT),利用流匹配(Flow-matching)技术生成高频、平滑的“动作块”,确保执行端的“快与准”。
  • 技术突破: 引入 Action Proposal 机制,强迫模型在理解图像的同时预测动作分布,实现了特征空间与动作空间的深度对齐。

二、 训练与推理创新:破解“动作断层”硬伤
针对机器人真机运行中的迟滞问题,小米团队提出了两项核心优化策略:

  1. :high_voltage: 异步推理模式: 让模型推理与机器人运行脱离同步约束。这种异步执行机制保障了机器人在执行长周期任务(如叠毛巾、积木拆解)时的连贯性与灵敏度
  2. :magnifying_glass_tilted_left: 反应性物理智能强化:
    • Clean Action Prefix: 通过输入前一时刻动作,确保轨迹在时间维度上连续、不抖动。
    • Λ-shape Attention Mask: 特殊注意力掩码机制强制模型聚焦当前视觉反馈,弱化历史惯性,使其在面对突发环境变化时具备极强的实时反应能力。

三、 性能表现:全面刷新行业Benchmark
Xiaomi-Robotics-0 在多维度测评中均表现出统治力:

  • 仿真领域:LIBERO、CALVIN 和 SimplerEnv 三大主流仿真测试中,从30余种竞品模型中脱颖而出,均取得最优成绩(SOTA)
  • 真机实战: 在双臂机器人平台上,针对积木拆解等高难度任务,展现出极高的手眼协调性。
  • 硬件兼容性: 该模型已实现在消费级显卡上的实时推理,极大降低了具身智能的开发与部署门槛。

结论
:light_bulb: 行业影响: 小米 Xiaomi-Robotics-0 的开源,不仅展示了其在具身智能领域深厚的技术积淀,更通过提供“大脑+小脑”的成熟方案,有望统一当前碎片化的机器人算法标准。
:chart_increasing: 投资逻辑: 随着VLA大模型进入开源时代,具身智能的泛化能力将迎来质的飞跃。建议关注:

  1. 小米产业链相关核心供应商;
  2. 具备高性能算力适配方案的硬件厂商;
  3. 布局柔性执行器及高精度传感器的零部件龙头。

:warning: 风险提示: 物理环境复杂度超预期;开源生态建设进度不及预期。

:light_bulb: 延伸阅读
原文链接