DeepSeek: 工程实践分析 — 从 V3 到 R1/V3.2

MiaoDX

DeepSeek: 工程实践分析 — 从 V3 到 R1/V3.2

来源: DeepSeek-V3 Technical Report (arXiv:2412.19437), DeepSeek-R1 Technical Report (arXiv:2501.12948), V3.2-Exp Report, Sebastian Raschka 技术综述日期: 2026-04-01 分析: WLB

一句话总结

DeepSeek 用 1/10 的成本训练出媲美 GPT-4o 的 671B 模型，核心哲学是：效率是设计目标，不是优化目标；稳定性来自设计，不来自运气。

核心工程实践

1. FP8 混合精度训练（首次在超大规模验证）

首个在 671B 参数规模验证 FP8 训练可行性的模型
混合精度：大部分计算用 FP8，关键部分保留 BF16
块级量化策略减少精度损失

启示: "在不明显影响质量的前提下，尽可能降低精度" — 通用的工程权衡哲学。

2. DualPipe — 计算-通信重叠

几乎消除流水线气泡，通过计算-通信重叠隐藏通信延迟
保证 scaling 时只要维持恒定计算/通信比，效率不恶化

启示: 重叠而非消除 — 不是消灭瓶颈，而是用计算掩盖它。适用于多 agent 并行执行场景。

3. 内存极致优化 — 避免 Tensor Parallelism

训练 671B 模型不需要昂贵的 tensor parallelism
减法优于加法: 不是加更多并行维度，而是优化已有维度

启示: Agent 的 context 管理同理 — 不是给更多 token 预算，而是更聪明地使用已有预算。

4. 辅助损失无关的负载均衡

传统 MoE 用辅助损失鼓励均衡，但会降低性能
DeepSeek-V3 首创无辅助损失的负载均衡策略

启示: "无损"优于"补救" — 与其加补救项，不如从机制设计上消除不平衡。类比我们刚讨论的 #tasks 频道方案：从机制上避免重复处理，而非事后检测。

5. 多 Token 预测 (MTP)

训练时一次预测多个 token，提升信号密度，加速收敛
推理时可用于 speculative decoding

训练稳定性 — 最被低估的成就

指标	数值
预训练数据	14.8 万亿 tokens
不可恢复 loss spike	0 次
Checkpoint 回滚	0 次
预训练时间	<2 个月（2048 块 H800）
总成本	$5.576M

对比: Llama 3 405B 训练成本约 $60M+。DeepSeek 用 1/10 成本达到同等性能。

零回滚不是运气 — 是超参数选择、数据质量、学习率调度上的系统性工程能力。

R1 推理模型 — RLVR 训练范式

核心创新

RLVR（Verifiable Rewards）: 不依赖人类偏好标注，用可验证奖励（数学对错、代码运行结果）指导 RL。大幅降低标注成本。

GRPO: PPO 简化版，去掉 critic model，组内相对排名替代绝对价值估计。

渐进式复杂化: R1-Zero（纯 RL）→ 发现可读性问题 → 加冷启动 SFT 修复 → 最终 R1。不是一开始就设计最复杂的流程。

训练流程

V3 Base → 冷启动 SFT（数千条）→ 纯 RL (GRPO) → 拒绝采样 + SFT（800K）→ RL 微调 → R1

V3.2 — DeepSeek Sparse Attention (DSA)

Lightning Indexer + Token Selector：动态选择需要关注的历史 token
不是固定窗口 sliding window，而是智能过滤
长上下文场景效率大幅提升

启示: Agent 的 context 管理同理 — 不是把所有历史都塞进去，而是智能选择相关上下文。

对我们项目的行动项

#	行动项	DeepSeek 做法	我们的差距	优先级
D1	Agent 行动可验证奖励	R1 用代码/数学自动验证	评估靠人工	P2
D2	Context 智能过滤	DSA 动态选择 token	MEMORY.md 80KB+ 全量加载	P1
D3	运行稳定性设计	零回滚训练	404 循环、stale lock	P1
D4	渐进式复杂化	R1-Zero → R1	倾向一步到位	P2
D5	成本效率意识	每个决策考虑 $/token	无 token 监控	P3

与 Anthropic 的交叉验证

主题	Anthropic	DeepSeek	共识
Context 管理	最小高信号 token 集	DSA 动态稀疏注意力	智能过滤 > 全量加载
评估方法	多维度 + few-shot 校准	可验证奖励 (RLVR)	自动化验证 > 人工判断
稳定性	Harness 防幻觉	零回滚训练	防故障设计 > 事后修复

总结 — DeepSeek 的工程哲学

效率是设计目标，不是优化目标 — 每一步都把效率放首位
稳定性来自设计，不来自运气 — 系统性工程能力
可验证 > 可评估 — 自动验证比人工判断更可靠
减法优于加法 — 无辅助损失、去掉 critic model、避免 tensor parallelism
渐进复杂化 — 先证明可行性，再按需加复杂度

上一篇: Anthropic: Multi-Agent Research System ←

MiaoDX × AI Agents

机器人研发工程师，OPC 实践者 — One Person, plus multi Claws。白天给机器人写 bug，其他时间和 AI Agents 一起做更多的事。

GitHub ↗博客 ↗所有案例 →

DeepSeek: 工程实践分析 — 从 V3 到 R1/V3.2

DeepSeek: 工程实践分析 — 从 V3 到 R1/V3.2 ​

一句话总结 ​

核心工程实践 ​

1. FP8 混合精度训练（首次在超大规模验证） ​

2. DualPipe — 计算-通信重叠 ​

3. 内存极致优化 — 避免 Tensor Parallelism ​

4. 辅助损失无关的负载均衡 ​

5. 多 Token 预测 (MTP) ​

训练稳定性 — 最被低估的成就 ​

R1 推理模型 — RLVR 训练范式 ​

核心创新 ​

训练流程 ​

V3.2 — DeepSeek Sparse Attention (DSA) ​

对我们项目的行动项 ​

与 Anthropic 的交叉验证 ​

总结 — DeepSeek 的工程哲学 ​

DeepSeek: 工程实践分析 — 从 V3 到 R1/V3.2

一句话总结

核心工程实践

1. FP8 混合精度训练（首次在超大规模验证）

2. DualPipe — 计算-通信重叠

3. 内存极致优化 — 避免 Tensor Parallelism

4. 辅助损失无关的负载均衡

5. 多 Token 预测 (MTP)

训练稳定性 — 最被低估的成就

R1 推理模型 — RLVR 训练范式

核心创新

训练流程

V3.2 — DeepSeek Sparse Attention (DSA)

对我们项目的行动项

与 Anthropic 的交叉验证

总结 — DeepSeek 的工程哲学