NVIDIA 工程实践深度分析:Extreme Co-Design 与 MLPerf 推理记录
NVIDIA 工程实践深度分析:Extreme Co-Design 与 MLPerf 推理记录
分析来源:
- NVIDIA Platform Delivers Lowest Token Cost Enabled by Extreme Co-Design (2026-04-03)
- NVIDIA GTC 2026 Live Updates (2026-04)
分析师:WLB 分析日期:2026-04-10
Part 1: 核心数据与关键成就
MLPerf Inference v6.0 成绩单
| Benchmark | 成绩 | 意义 |
|---|---|---|
| DeepSeek-R1 (Offline) | 2,494,310 tokens/sec | 推理吞吐标杆 |
| GPT-OSS-120B (Server) | 1,096,770 tokens/sec | MoE 推理能力 |
| Qwen3-VL-235B (Offline) | 79 samples/sec | 首个多模态 MLPerf 测试 |
| DLRMv3 (Server) | 99,997 queries/sec | 生成式推荐系统 |
累计 MLPerf 训练+推理获胜:291 次,是其他所有厂商合计的 9 倍。
GB300 NVL72 半年性能翻 2.7 倍
关键数据点:
- 6 个月前首发 DeepSeek-R1 → 今天同样硬件 2.7x 性能提升
- 相同 GB300 NVL72 基础设施和功耗,2.7x 更多 tokens
- Token 生产成本降低 60%+
- 达成方:NVIDIA 合作伙伴 Nebius
为什么这个数字重要? 硬件没换,6 个月软件优化让 token 成本腰斩。这不是芯片升级红利,而是全栈软件工程的胜利。对 AI Factory 运营商来说,这意味着用同样的电费和硬件成本,营收能力提升 2.7 倍。
Part 2: Extreme Co-Design 架构解析
什么是 Extreme Co-Design
传统硬件采购思维:先有芯片 → 再做软件优化 → 性能打折扣。
NVIDIA 的思路:从第一天起,硬件+软件+模型三位一体协同设计。
芯片设计 ←→ 推理软件栈 ←→ 模型架构
↑___________↓____________↑
三角协同黄仁勋原话:"extreme codesign is designing software and silicon in tandem"(软硬件协同设计)。
关键受益:老显卡永不过时
公告里提到:"NVIDIA GPUs introduced years ago can remain productive, at high utilization rates, in the cloud."
这意味着 Blackwell 架构发布时的老卡,可以通过软件更新持续获得性能提升——只要底层芯片架构兼容。
对我们 OpenClaw 的启发: 我们用的大多数硬件可能都是"老"卡。如果 NVIDIA 能通过软件栈持续优化旧硬件,我们也应该持续投资 OpenClaw 的推理优化层。
Part 3: TensorRT-LLM 软件更新细节
做了什么优化
本轮 MLPerf v6.0 的性能提升主要来自 TensorRT-LLM 软件更新,包括:
| 优化维度 | 说明 |
|---|---|
| Kernel 融合 | 合并多个独立操作减少内存访问 |
| 动态批处理 | 变长序列的智能打包 |
| Paged KV Cache | 减少内存碎片,提升 GPU 利用率 |
| FP8/BF16 混合精度 | 精度与吞吐的平衡 |
| 通信重叠 | MoE 专家路由与通信并行 |
MoE 推理的特别挑战
DeepSeek-R1 是稀疏 MoE(Mixture of Experts):
- 总参数大但激活参数小
- 瓶颈在专家路由和跨 GPU 通信,不是计算
- TensorRT-LLM 的 MoE 优化需要特殊的 all-to-all 通信调度
OpenClaw 借鉴点: 如果我们自己跑 MoE 模型(如 Qwen、DeepSeek),专家路由是性能关键点。需要确保网络带宽(NVLink vs PCIe)足够,不然跨 GPU 通信会拖死。
Part 4: 新增 Benchmark 工作负载解析
新增模型(MLPerf v6.0)
| 模型 | 类型 | 意义 |
|---|---|---|
| DeepSeek-R1 Interactive | 推理 LLM,稀疏 MoE | 新增交互场景,5x 更快首 token,1.3x 短延迟 |
| Qwen3-VL-235B | 视觉-语言模型 | 首个多模态 MLPerf 测试,235B 参数 |
| GPT-OSS-120B | MoE 推理 LLM | OpenAI 的开源推理模型 |
| Wan-2.2-T2V-A14B | 文生视频 | 4B 参数,测试新的生成式 AI 场景 |
| DLRMv3 | 生成式推荐 | Transformer 架构替代原有 DCNv2 |
多模态成为新标准
Qwen3-VL 的加入意义重大——首个视觉-语言模型进入 MLPerf 推理套件。这意味着:
- VLM 推理已经成为主流场景
- 纯语言模型的推理优化已经成熟
- 下一波优化重点是多模态融合
Part 5: Partner Ecosystem(合作伙伴生态)
14 家合作伙伴提交 MLPerf
这是历史最大规模合作伙伴参与:ASUS, Cisco, CoreWeave, Dell, GigaComputing, Google Cloud, HPE, Lenovo, Nebius, Netweb, QCT, Red Hat, Supermicro, Lambda。
生态策略观察:
- NVIDIA 不自己做所有优化,而是提供底层优化工具(TensorRT-LLM)
- 合作伙伴在基础上做自己的定制优化
- 结果:全行业围绕 NVIDIA 生态卷,NVIDIA 是最大赢家
对比 OpenClaw: 我们没有 NVIDIA 那样的生态护城河。但思路可以学——提供标准化的 Skill 接口,让社区帮你优化。SKILL.md 就是我们的 "TensorRT"——别人写的 skill 可以在我们平台跑。
Part 6: 战略启示
AI Factory 的经济学
NVIDIA 的核心论点:Token Cost = AI Factory 的核心竞争要素
- 不是 GPU 数量,不是峰值 FLOPS
- 而是每 token 成本 × 每秒吞吐
当 token 成本降低 60%,相同定价下利润率暴涨。或者相同利润率下,定价可以更有竞争力。
对 AI 应用开发者的影响
| 变化 | 影响 |
|---|---|
| Token 成本下降 | AI 原生应用可以更便宜,对价格敏感场景(客服、教育)更可行 |
| 推理速度提升 | 实时交互场景(语音助手、Copilot)体验更好 |
| 多模态普及 | 应用可以原生支持图像+视频+音频,不只是文本 |
Extreme Co-Design 的深层逻辑
为什么其他厂商追不上?
黄仁勋的逻辑:
- 自己做芯片 + 软件 + 模型 → 三者紧耦合 → 极限优化
- 外包芯片/软件/模型 → 接口损耗 → 永远有 gap
这对 AI 系统设计有普遍意义:组件之间的接口损耗是性能杀手。
对我们自己系统的反思:OpenClaw 的 Gateway 和 Agent 之间的接口,是否有隐性的序列化和反序列化开销?Session 状态的跨进程传递是否有不必要的拷贝?这些"接口损耗"可能比算法优化更影响整体性能。
Part 7: 对我们的借鉴
可行动项
| # | 行动项 | 来源 | 优先级 |
|---|---|---|---|
| N1 | 测量 OpenClaw 实际推理吞吐和延迟(不只是 token 速度,而是端到端响应) | 黄仁勋"测真正重要的" | P1 |
| N2 | 检查跨进程通信路径,消除不必要的序列化 | 接口损耗思维 | P2 |
| N3 | 如果跑 MoE 模型,确认 NVLink 带宽足够 | MoE 通信瓶颈 | P2 |
| N4 | 关注多模态 Skill 机会(VLM 推理) | Qwen3-VL 进入 MLPerf | P3 |
基础设施对比
| 能力 | NVIDIA | OpenClaw(当前) | 差距 |
|---|---|---|---|
| 全栈协同设计 | 芯片+软件+模型 | Gateway+Agent+Skills | 🔴 大 |
| 软件持续优化旧硬件 | TensorRT-LLM 更新 | 少有 | 🟡 中 |
| MoE 推理优化 | 原生支持 | 需手动配置 | 🔴 大 |
| 多模态推理 | 行业领先 | 无原生支持 | 🔴 大 |
| Partner 生态 | 14+ 合作伙伴 | 社区 Skills(早起) | 🟡 中 |
附录:GTC 2026 配套信息
- Vera Rubin:下一代全栈计算平台,7 芯片 / 5 机架系统 / 1 超算,专为 Agentic AI
- AI Grids:电信运营商在做地理分布式推理优化
- Jetson Thor:OpenClaw 在 NVIDIA Jetson Thor 上本地运行,Nemotron 模型 + vLLM
分析完成,2026-04-10 by WLB