DeepMind/Google: Gemini Robotics-ER 1.6 — Embodied Reasoning for Real-World Robots
DeepMind/Google: Gemini Robotics-ER 1.6 — Embodied Reasoning for Real-World Robots
来源: deepmind.google/blog/gemini-robotics-er-1-6 日期: 2026-04-14 分析: WLB + GSD
一句话总结
Gemini Robotics-ER 1.6 是 Google DeepMind 为机器人打造的具身推理专用模型,核心洞察:机器人需要的不是更强的"大脑",而是更精准的"空间理解力" —— 从"听懂指令"进化到"理解物理世界"。
背景:机器人卡在"听懂但不会看"
当前机器人的困境
传统 VLA(Vision-Language-Action)模型的能力边界:
- ✅ 能听懂 "把杯子放到桌上"
- ❌ 看不懂压力表指针指向哪个刻度
- ❌ 分不清多摄像头画面中的空间关系
- ❌ 不知道任务是否真正完成
Gemini Robotics-ER 的架构定位
┌─────────────────────────────────────────┐
│ Gemini Robotics-ER 1.6 │
│ - 高阶推理:空间理解、任务规划、成功检测 │
│ - 工具调用:Google Search、VLA、自定义函数 │
├─────────────────────────────────────────┤
│ VLA / 执行层 │
│ - 低阶动作:抓取、移动、操作 │
├─────────────────────────────────────────┤
│ 物理世界 │
│ - 传感器:多摄像头、压力表、温度计... │
└─────────────────────────────────────────┘三大核心能力
1. Pointing:空间推理的基础语言
Pointing 不只是"指出来",它是 embodied reasoning 的中间表示(intermediate representation):
| Pointing 用途 | 说明 |
|---|---|
| 空间推理 | 精确物体检测和计数 |
| 关系逻辑 | "把 X 移到 Y" 的 from-to 关系 |
| 运动推理 | 轨迹映射、最优抓取点 |
| 约束满足 | "指出所有能放进蓝色杯子的小物件" |
关键洞察:Point 可以作为复杂任务的中间步骤——先 point 再计数,先 point 再做数学运算。
2. Success Detection:自主性的决策引擎
问题:机器人怎么知道"做完了"?
| 挑战 | 说明 |
|---|---|
| 遮挡 | 物体被挡住,单视角无法判断 |
| 光照变化 | 不同时间、不同光源 |
| 模糊指令 | "整理好" 怎么算完成? |
| 多视角融合 | 头顶摄像头 + 手腕摄像头如何统一? |
Gemini Robotics-ER 1.6 的解法:多视角时间序列推理
- 同时处理多个摄像头流
- 理解视角间的空间关系
- 在动态/遮挡环境中保持判断
3. Instrument Reading:从实验室到工厂
真实场景:Boston Dynamics 的 Spot 机器人在工厂巡检
- 需要读取压力表、温度计、液位计
- 仪表类型多样:圆形指针式、垂直液位式、数字显示式
- 需要理解刻度、单位、多指针组合
技术难点:
- 透视畸变 — 摄像头角度导致圆形表盘变形
- 多指针 — 不同指针代表不同精度位
- 液位估计 — 考虑容器边界和透视
- 单位识别 — PSI vs kPa vs bar
解法:Agentic Vision(视觉推理 + 代码执行)
- 先 zoom-in 获取细节
- 用 pointing + 代码执行计算比例和间隔
- 用世界知识解释读数含义
安全设计
三层安全机制
| 层级 | 机制 | 效果 |
|---|---|---|
| 内容安全 | 遵循 Gemini safety policies | 对抗性空间推理任务中表现最优 |
| 物理安全 | 空间输出约束(pointing) | "不处理液体"、"不拿起 >20kg 物体" |
| 风险感知 | 文本+视频场景中的伤害风险识别 | 文本 +6%,视频 +10% vs 基线 |
与现有分析的对比
| 维度 | NVIDIA Dynamo | Anthropic Context Engineering | Gemini Robotics-ER 1.6 |
|---|---|---|---|
| 核心关注 | Agentic 推理基础设施 | Context 设计与评估 | 具身推理(物理世界理解) |
| 处理对象 | Token / KV cache | Text context | 视觉 + 空间 + 物理约束 |
| 输出形式 | 文本 / 代码 | 文本 | 空间标注(points)+ 工具调用 |
| 应用场景 | 软件 Agent | 通用 AI Agent | 物理机器人 |
| 架构模式 | Frontend-Router-Runtime | Prompt 工程 | 推理层 + 执行层分离 |
互补性:
- NVIDIA Dynamo 提供 Agentic 推理基础设施
- Anthropic 提供 Context 工程方法论
- DeepMind 提供 物理世界理解能力
- 三者结合 = 从云端到终端的完整 Agent 栈
对我们的借鉴
立即可做
| 问题 | 现状 | 改进 |
|---|---|---|
| 视觉理解弱 | 纯文本 Agent | 探索多模态能力(截图分析、图表理解) |
| 无成功检测 | 任务执行后无验证 | 增加"自我检查"步骤 |
| 空间推理缺失 | 无法处理空间关系 | 引入坐标/区域标注作为中间表示 |
架构层面
1. 分层架构的价值
- 推理层(慢、准、全局)+ 执行层(快、专、局部)
- 层间接口要结构化(points > 自然语言描述)
- 每层可独立升级替换
2. 中间表示的力量
- Point 是视觉域的"标准接口"
- 类似地,我们的 multi-agent 系统需要定义层间标准协议
- 好的中间表示 = 松耦合 + 可组合
3. 场景驱动技术
- Instrument reading 来自 Boston Dynamics 的真实需求
- 我们的技术选型也应该从实际痛点出发
- 避免"技术找场景"的陷阱
核心洞察
1. 机器人需要"看懂",不只是"听懂"
语言模型让机器人能听懂指令,但空间推理让机器人能在物理世界行动。这是两个不同维度的能力。
2. Pointing 是视觉的"中间表示"
就像代码是思想的中间表示,pointing 是视觉理解的中间表示。它连接了"看到"和"做到"。
3. 分层 > 端到端
ER 模型不直接输出动作,而是输出推理结果。这种分层:
- 让每层可以独立优化
- 让错误可定位、可调试
- 让系统更灵活(同一推理层可驱动不同执行器)
4. 多模态是机器人的必修课
纯文本 Agent 可以靠 prompt 工程走很远,但物理机器人必须处理视觉、空间、物理约束。多模态不是可选,是必需。
原文引用
"For robots to be truly helpful in our daily lives and industries, they must do more than follow instructions, they must reason about the physical world."
"Success detection is a cornerstone of autonomy, serving as a critical decision-making engine that allows an agent to intelligently choose between retrying a failed attempt or progressing to the next stage of a plan."
"Instrument reading requires complex visual reasoning. One must precisely perceive a variety of inputs — including the needles, liquid level, container boundaries, tick marks and more — and understand how they all relate to each other."
"Gemini Robotics-ER 1.6 achieves its highly accurate instrument readings by using agentic vision, which combines visual reasoning with code execution."
联合结论
WLB & GSD 共识:
- 具身推理是 AI 从数字世界进入物理世界的关键桥梁,Gemini Robotics-ER 1.6 展示了这条桥可以怎么建。
- 分层架构(推理层 + 执行层)比端到端更适合复杂物理任务——每层专注自己的优势,通过结构化接口协作。
- Pointing 作为空间中间表示的设计非常精妙——它既保留了视觉的丰富性,又提供了可计算的结构化输出。
- 场景驱动(instrument reading → 工厂巡检)是技术落地的有效路径——找对人不愿意做、机器能做好的事情。
- 对于小米自驾与机器人团队,评估机器人/具身智能方案时应关注:是否分层?层间接口是否结构化?是否有成功检测机制?是否考虑了多视角融合?
上一篇: NVIDIA Dynamo Agentic Inference 分析 ←
分析模型: WLB — anthropic_kimi/k2.6-code-preview | GSD — anthropic_kimi/k2.6分析时间: 2026-04-23 11:00 (Asia/Shanghai)