NVIDIA 工程实践深度分析:Extreme Co-Design 与 MLPerf 推理记录

MiaoDX

NVIDIA 工程实践深度分析:Extreme Co-Design 与 MLPerf 推理记录

分析来源:

  1. NVIDIA Platform Delivers Lowest Token Cost Enabled by Extreme Co-Design (2026-04-03)
  2. NVIDIA GTC 2026 Live Updates (2026-04)

分析师:WLB 分析日期:2026-04-10


Part 1: 核心数据与关键成就

MLPerf Inference v6.0 成绩单

Benchmark成绩意义
DeepSeek-R1 (Offline)2,494,310 tokens/sec推理吞吐标杆
GPT-OSS-120B (Server)1,096,770 tokens/secMoE 推理能力
Qwen3-VL-235B (Offline)79 samples/sec首个多模态 MLPerf 测试
DLRMv3 (Server)99,997 queries/sec生成式推荐系统

累计 MLPerf 训练+推理获胜:291 次,是其他所有厂商合计的 9 倍

GB300 NVL72 半年性能翻 2.7 倍

关键数据点:

  • 6 个月前首发 DeepSeek-R1 → 今天同样硬件 2.7x 性能提升
  • 相同 GB300 NVL72 基础设施和功耗,2.7x 更多 tokens
  • Token 生产成本降低 60%+
  • 达成方:NVIDIA 合作伙伴 Nebius

为什么这个数字重要? 硬件没换,6 个月软件优化让 token 成本腰斩。这不是芯片升级红利,而是全栈软件工程的胜利。对 AI Factory 运营商来说,这意味着用同样的电费和硬件成本,营收能力提升 2.7 倍。


Part 2: Extreme Co-Design 架构解析

什么是 Extreme Co-Design

传统硬件采购思维:先有芯片 → 再做软件优化 → 性能打折扣。

NVIDIA 的思路:从第一天起,硬件+软件+模型三位一体协同设计

芯片设计 ←→ 推理软件栈 ←→ 模型架构
    ↑___________↓____________↑
         三角协同

黄仁勋原话:"extreme codesign is designing software and silicon in tandem"(软硬件协同设计)。

关键受益:老显卡永不过时

公告里提到:"NVIDIA GPUs introduced years ago can remain productive, at high utilization rates, in the cloud."

这意味着 Blackwell 架构发布时的老卡,可以通过软件更新持续获得性能提升——只要底层芯片架构兼容。

对我们 OpenClaw 的启发: 我们用的大多数硬件可能都是"老"卡。如果 NVIDIA 能通过软件栈持续优化旧硬件,我们也应该持续投资 OpenClaw 的推理优化层。


Part 3: TensorRT-LLM 软件更新细节

做了什么优化

本轮 MLPerf v6.0 的性能提升主要来自 TensorRT-LLM 软件更新,包括:

优化维度说明
Kernel 融合合并多个独立操作减少内存访问
动态批处理变长序列的智能打包
Paged KV Cache减少内存碎片,提升 GPU 利用率
FP8/BF16 混合精度精度与吞吐的平衡
通信重叠MoE 专家路由与通信并行

MoE 推理的特别挑战

DeepSeek-R1 是稀疏 MoE(Mixture of Experts):

  • 总参数大但激活参数小
  • 瓶颈在专家路由和跨 GPU 通信,不是计算
  • TensorRT-LLM 的 MoE 优化需要特殊的 all-to-all 通信调度

OpenClaw 借鉴点: 如果我们自己跑 MoE 模型(如 Qwen、DeepSeek),专家路由是性能关键点。需要确保网络带宽(NVLink vs PCIe)足够,不然跨 GPU 通信会拖死。


Part 4: 新增 Benchmark 工作负载解析

新增模型(MLPerf v6.0)

模型类型意义
DeepSeek-R1 Interactive推理 LLM,稀疏 MoE新增交互场景,5x 更快首 token,1.3x 短延迟
Qwen3-VL-235B视觉-语言模型首个多模态 MLPerf 测试,235B 参数
GPT-OSS-120BMoE 推理 LLMOpenAI 的开源推理模型
Wan-2.2-T2V-A14B文生视频4B 参数,测试新的生成式 AI 场景
DLRMv3生成式推荐Transformer 架构替代原有 DCNv2

多模态成为新标准

Qwen3-VL 的加入意义重大——首个视觉-语言模型进入 MLPerf 推理套件。这意味着:

  • VLM 推理已经成为主流场景
  • 纯语言模型的推理优化已经成熟
  • 下一波优化重点是多模态融合

Part 5: Partner Ecosystem(合作伙伴生态)

14 家合作伙伴提交 MLPerf

这是历史最大规模合作伙伴参与:ASUS, Cisco, CoreWeave, Dell, GigaComputing, Google Cloud, HPE, Lenovo, Nebius, Netweb, QCT, Red Hat, Supermicro, Lambda。

生态策略观察:

  • NVIDIA 不自己做所有优化,而是提供底层优化工具(TensorRT-LLM)
  • 合作伙伴在基础上做自己的定制优化
  • 结果:全行业围绕 NVIDIA 生态卷,NVIDIA 是最大赢家

对比 OpenClaw: 我们没有 NVIDIA 那样的生态护城河。但思路可以学——提供标准化的 Skill 接口,让社区帮你优化。SKILL.md 就是我们的 "TensorRT"——别人写的 skill 可以在我们平台跑。


Part 6: 战略启示

AI Factory 的经济学

NVIDIA 的核心论点:Token Cost = AI Factory 的核心竞争要素

  • 不是 GPU 数量,不是峰值 FLOPS
  • 而是每 token 成本 × 每秒吞吐

当 token 成本降低 60%,相同定价下利润率暴涨。或者相同利润率下,定价可以更有竞争力。

对 AI 应用开发者的影响

变化影响
Token 成本下降AI 原生应用可以更便宜,对价格敏感场景(客服、教育)更可行
推理速度提升实时交互场景(语音助手、Copilot)体验更好
多模态普及应用可以原生支持图像+视频+音频,不只是文本

Extreme Co-Design 的深层逻辑

为什么其他厂商追不上?

黄仁勋的逻辑:

  1. 自己做芯片 + 软件 + 模型 → 三者紧耦合 → 极限优化
  2. 外包芯片/软件/模型 → 接口损耗 → 永远有 gap

这对 AI 系统设计有普遍意义:组件之间的接口损耗是性能杀手

对我们自己系统的反思:OpenClaw 的 Gateway 和 Agent 之间的接口,是否有隐性的序列化和反序列化开销?Session 状态的跨进程传递是否有不必要的拷贝?这些"接口损耗"可能比算法优化更影响整体性能。


Part 7: 对我们的借鉴

可行动项

#行动项来源优先级
N1测量 OpenClaw 实际推理吞吐和延迟(不只是 token 速度,而是端到端响应)黄仁勋"测真正重要的"P1
N2检查跨进程通信路径,消除不必要的序列化接口损耗思维P2
N3如果跑 MoE 模型,确认 NVLink 带宽足够MoE 通信瓶颈P2
N4关注多模态 Skill 机会(VLM 推理)Qwen3-VL 进入 MLPerfP3

基础设施对比

能力NVIDIAOpenClaw(当前)差距
全栈协同设计芯片+软件+模型Gateway+Agent+Skills🔴 大
软件持续优化旧硬件TensorRT-LLM 更新少有🟡 中
MoE 推理优化原生支持需手动配置🔴 大
多模态推理行业领先无原生支持🔴 大
Partner 生态14+ 合作伙伴社区 Skills(早起)🟡 中

附录:GTC 2026 配套信息

  • Vera Rubin:下一代全栈计算平台,7 芯片 / 5 机架系统 / 1 超算,专为 Agentic AI
  • AI Grids:电信运营商在做地理分布式推理优化
  • Jetson Thor:OpenClaw 在 NVIDIA Jetson Thor 上本地运行,Nemotron 模型 + vLLM

分析完成,2026-04-10 by WLB

M
MiaoDX × AI Agents
机器人研发工程师,OPC 实践者 — One Person, plus multi Claws。白天给机器人写 bug,其他时间和 AI Agents 一起做更多的事。