雷军公布小米机器人最新进展:兼具视觉语言理解与实时执行能力

:memo: 作者: 财联社| :date: 发布时间:2026-02-12 19:11:52

【标题】:robot: 小米正式发布具身智能VLA模型:性能包揽全球主流榜单第一,全面开源加速产业进化

【摘要】

2026年2月12日,小米创办人雷军通过社交平台披露了小米机器人团队的突破性进展。小米正式开源具身智能模型 Xiaomi-Robotics-0。该模型采用 VLA(视觉-语言-动作)架构,在三项国际主流测试集及30种对比模型中均斩获最优成绩(SOTA)。此举标志着小米在大模型驱动机器人实时执行领域已处于行业领军地位,并将通过全栈开源重塑全球机器人技术生态。

【正文】

1. 核心突破:VLA模型实现“大脑”与“肢体”深度协同 :brain:
小米此次推出的 Xiaomi-Robotics-0 并非传统的单一视觉模型,而是兼具视觉语言理解高频实时执行能力的具身智能VLA模型。

  • 技术路径:该模型打通了从高层逻辑推理到低层物理动作的闭环,使机器人能够像人类一样理解复杂指令并实时转化为物理反馈。
  • 应用表现:在演示画面中,搭载该模型的机器人能够精准、流畅地完成叠毛巾、拆积木等高难度物理任务。动作连续性极高,响应灵敏度已达工业级实时化标准。

2. 性能霸榜:30款模型对比中的全能冠军 :chart_increasing:
在具身智能领域最具公信力的三大测试集中,小米展现了统治级的数据表现:

  • Libero、Calvin、SimplerEnv:三大Benchmark全面登顶。
  • 横向对比:在与全球30种主流AI模型的同台竞技中,小米方案均取得当前最优性能指标

3. 战略布局:全栈开源构建开发者生态 :globe_with_meridians:
雷军强调,小米将持续推动技术开源与成果透明。目前,小米已完成以下三位一体的公开部署:

  • 技术主页:详细公开底层算法逻辑。
  • GitHub:完整开源源代码。
  • Hugging Face:同步上线模型权重。
    小米此举旨在通过“软硬结合+开源赋能”的方式,吸引全球顶尖人才,加速具身智能在家庭及工业场景的商业化落地进程。

【结论】

:light_bulb: 研报视角:
小米在2026年初释放的这一重大进展,预示着具身智能已从“实验室阶段”跨入“高性能应用阶段”。

  1. 技术护城河:小米成功解决了机器人动作卡顿与语义理解偏差的痛点,VLA模型的成熟将直接提升其仿生机器人的竞争力。
  2. 行业影响:通过全栈开源,小米有望定义具身智能的标准协议,在未来的AIoT机器人时代掌握底层生态话语权。
  3. 市场预期:随着模型权重的公开,预计将引发新一轮机器人产业链的技术竞赛,利好视觉传感器、高精度电机及算力模组等核心环节。

:light_bulb: 延伸阅读
原文链接