NVIDIA 工程实践深度分析：Extreme Co-Design 与 MLPerf 推理记录

MiaoDX

NVIDIA 工程实践深度分析：Extreme Co-Design 与 MLPerf 推理记录

分析来源：
NVIDIA Platform Delivers Lowest Token Cost Enabled by Extreme Co-Design (2026-04-03)
NVIDIA GTC 2026 Live Updates (2026-04)
分析师：WLB 分析日期：2026-04-10

Part 1: 核心数据与关键成就

MLPerf Inference v6.0 成绩单

Benchmark	成绩	意义
DeepSeek-R1 (Offline)	2,494,310 tokens/sec	推理吞吐标杆
GPT-OSS-120B (Server)	1,096,770 tokens/sec	MoE 推理能力
Qwen3-VL-235B (Offline)	79 samples/sec	首个多模态 MLPerf 测试
DLRMv3 (Server)	99,997 queries/sec	生成式推荐系统

累计 MLPerf 训练+推理获胜：291 次，是其他所有厂商合计的 9 倍。

GB300 NVL72 半年性能翻 2.7 倍

关键数据点：

6 个月前首发 DeepSeek-R1 → 今天同样硬件 2.7x 性能提升
相同 GB300 NVL72 基础设施和功耗，2.7x 更多 tokens
Token 生产成本降低 60%+
达成方：NVIDIA 合作伙伴 Nebius

为什么这个数字重要？ 硬件没换，6 个月软件优化让 token 成本腰斩。这不是芯片升级红利，而是全栈软件工程的胜利。对 AI Factory 运营商来说，这意味着用同样的电费和硬件成本，营收能力提升 2.7 倍。

Part 2: Extreme Co-Design 架构解析

什么是 Extreme Co-Design

传统硬件采购思维：先有芯片 → 再做软件优化 → 性能打折扣。

NVIDIA 的思路：从第一天起，硬件+软件+模型三位一体协同设计。

芯片设计 ←→ 推理软件栈 ←→ 模型架构
    ↑___________↓____________↑
         三角协同

黄仁勋原话："extreme codesign is designing software and silicon in tandem"（软硬件协同设计）。

关键受益：老显卡永不过时

公告里提到："NVIDIA GPUs introduced years ago can remain productive, at high utilization rates, in the cloud."

这意味着 Blackwell 架构发布时的老卡，可以通过软件更新持续获得性能提升——只要底层芯片架构兼容。

对我们 OpenClaw 的启发： 我们用的大多数硬件可能都是"老"卡。如果 NVIDIA 能通过软件栈持续优化旧硬件，我们也应该持续投资 OpenClaw 的推理优化层。

Part 3: TensorRT-LLM 软件更新细节

做了什么优化

本轮 MLPerf v6.0 的性能提升主要来自 TensorRT-LLM 软件更新，包括：

优化维度	说明
Kernel 融合	合并多个独立操作减少内存访问
动态批处理	变长序列的智能打包
Paged KV Cache	减少内存碎片，提升 GPU 利用率
FP8/BF16 混合精度	精度与吞吐的平衡
通信重叠	MoE 专家路由与通信并行

MoE 推理的特别挑战

DeepSeek-R1 是稀疏 MoE（Mixture of Experts）：

总参数大但激活参数小
瓶颈在专家路由和跨 GPU 通信，不是计算
TensorRT-LLM 的 MoE 优化需要特殊的 all-to-all 通信调度

OpenClaw 借鉴点： 如果我们自己跑 MoE 模型（如 Qwen、DeepSeek），专家路由是性能关键点。需要确保网络带宽（NVLink vs PCIe）足够，不然跨 GPU 通信会拖死。

Part 4: 新增 Benchmark 工作负载解析

新增模型（MLPerf v6.0）

模型	类型	意义
DeepSeek-R1 Interactive	推理 LLM，稀疏 MoE	新增交互场景，5x 更快首 token，1.3x 短延迟
Qwen3-VL-235B	视觉-语言模型	首个多模态 MLPerf 测试，235B 参数
GPT-OSS-120B	MoE 推理 LLM	OpenAI 的开源推理模型
Wan-2.2-T2V-A14B	文生视频	4B 参数，测试新的生成式 AI 场景
DLRMv3	生成式推荐	Transformer 架构替代原有 DCNv2

多模态成为新标准

Qwen3-VL 的加入意义重大——首个视觉-语言模型进入 MLPerf 推理套件。这意味着：

VLM 推理已经成为主流场景
纯语言模型的推理优化已经成熟
下一波优化重点是多模态融合

Part 5: Partner Ecosystem（合作伙伴生态）

14 家合作伙伴提交 MLPerf

这是历史最大规模合作伙伴参与：ASUS, Cisco, CoreWeave, Dell, GigaComputing, Google Cloud, HPE, Lenovo, Nebius, Netweb, QCT, Red Hat, Supermicro, Lambda。

生态策略观察：

NVIDIA 不自己做所有优化，而是提供底层优化工具（TensorRT-LLM）
合作伙伴在基础上做自己的定制优化
结果：全行业围绕 NVIDIA 生态卷，NVIDIA 是最大赢家

对比 OpenClaw： 我们没有 NVIDIA 那样的生态护城河。但思路可以学——提供标准化的 Skill 接口，让社区帮你优化。SKILL.md 就是我们的 "TensorRT"——别人写的 skill 可以在我们平台跑。

Part 6: 战略启示

AI Factory 的经济学

NVIDIA 的核心论点：Token Cost = AI Factory 的核心竞争要素

不是 GPU 数量，不是峰值 FLOPS
而是每 token 成本 × 每秒吞吐

当 token 成本降低 60%，相同定价下利润率暴涨。或者相同利润率下，定价可以更有竞争力。

对 AI 应用开发者的影响

变化	影响
Token 成本下降	AI 原生应用可以更便宜，对价格敏感场景（客服、教育）更可行
推理速度提升	实时交互场景（语音助手、Copilot）体验更好
多模态普及	应用可以原生支持图像+视频+音频，不只是文本

Extreme Co-Design 的深层逻辑

为什么其他厂商追不上？

黄仁勋的逻辑：

自己做芯片 + 软件 + 模型 → 三者紧耦合 → 极限优化
外包芯片/软件/模型 → 接口损耗 → 永远有 gap

这对 AI 系统设计有普遍意义：组件之间的接口损耗是性能杀手。

对我们自己系统的反思：OpenClaw 的 Gateway 和 Agent 之间的接口，是否有隐性的序列化和反序列化开销？Session 状态的跨进程传递是否有不必要的拷贝？这些"接口损耗"可能比算法优化更影响整体性能。

Part 7: 对我们的借鉴

可行动项

#	行动项	来源	优先级
N1	测量 OpenClaw 实际推理吞吐和延迟（不只是 token 速度，而是端到端响应）	黄仁勋"测真正重要的"	P1
N2	检查跨进程通信路径，消除不必要的序列化	接口损耗思维	P2
N3	如果跑 MoE 模型，确认 NVLink 带宽足够	MoE 通信瓶颈	P2
N4	关注多模态 Skill 机会（VLM 推理）	Qwen3-VL 进入 MLPerf	P3

基础设施对比

能力	NVIDIA	OpenClaw（当前）	差距
全栈协同设计	芯片+软件+模型	Gateway+Agent+Skills	🔴 大
软件持续优化旧硬件	TensorRT-LLM 更新	少有	🟡 中
MoE 推理优化	原生支持	需手动配置	🔴 大
多模态推理	行业领先	无原生支持	🔴 大
Partner 生态	14+ 合作伙伴	社区 Skills（早起）	🟡 中

附录：GTC 2026 配套信息

Vera Rubin：下一代全栈计算平台，7 芯片 / 5 机架系统 / 1 超算，专为 Agentic AI
AI Grids：电信运营商在做地理分布式推理优化
Jetson Thor：OpenClaw 在 NVIDIA Jetson Thor 上本地运行，Nemotron 模型 + vLLM

分析完成，2026-04-10 by WLB

MiaoDX × AI Agents

机器人研发工程师，OPC 实践者 — One Person, plus multi Claws。白天给机器人写 bug，其他时间和 AI Agents 一起做更多的事。

GitHub ↗博客 ↗所有案例 →

NVIDIA 工程实践深度分析：Extreme Co-Design 与 MLPerf 推理记录

NVIDIA 工程实践深度分析：Extreme Co-Design 与 MLPerf 推理记录 ​

Part 1: 核心数据与关键成就 ​

MLPerf Inference v6.0 成绩单 ​

GB300 NVL72 半年性能翻 2.7 倍 ​

Part 2: Extreme Co-Design 架构解析 ​

什么是 Extreme Co-Design ​

关键受益：老显卡永不过时 ​

Part 3: TensorRT-LLM 软件更新细节 ​

做了什么优化 ​

MoE 推理的特别挑战 ​

Part 4: 新增 Benchmark 工作负载解析 ​

新增模型（MLPerf v6.0） ​

多模态成为新标准 ​

Part 5: Partner Ecosystem（合作伙伴生态） ​

14 家合作伙伴提交 MLPerf ​

Part 6: 战略启示 ​

AI Factory 的经济学 ​

对 AI 应用开发者的影响 ​

Extreme Co-Design 的深层逻辑 ​

Part 7: 对我们的借鉴 ​

可行动项 ​

基础设施对比 ​

附录：GTC 2026 配套信息 ​

NVIDIA 工程实践深度分析：Extreme Co-Design 与 MLPerf 推理记录

Part 1: 核心数据与关键成就

MLPerf Inference v6.0 成绩单

GB300 NVL72 半年性能翻 2.7 倍

Part 2: Extreme Co-Design 架构解析

什么是 Extreme Co-Design

关键受益：老显卡永不过时

Part 3: TensorRT-LLM 软件更新细节

做了什么优化

MoE 推理的特别挑战

Part 4: 新增 Benchmark 工作负载解析

新增模型（MLPerf v6.0）

多模态成为新标准

Part 5: Partner Ecosystem（合作伙伴生态）

14 家合作伙伴提交 MLPerf

Part 6: 战略启示

AI Factory 的经济学

对 AI 应用开发者的影响

Extreme Co-Design 的深层逻辑

Part 7: 对我们的借鉴

可行动项

基础设施对比

附录：GTC 2026 配套信息