DeepSeek-V4 – 青瓜传媒

DeepSeek-V4技术报告暗藏的10个神级彩蛋

青瓜传媒 — Tue, 28 Apr 2026 00:45:34 +0000

4月24日，DeepSeek官方账号发布了一篇名为《DeepSeek-V4 预览版：迈入百万上下文普惠时代》的文章。文章中正式宣布，“全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。”

同时，还介绍：DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本：

发布后，测评、讨论已非常充分，不再赘述。

盒饭财经关注到，DeepSeek同步发布了一篇关于DeepSeek-V4 技术报告。地址如下：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

这份名为《DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence》的技术报告，共55页，从架构、通用基础设施、预训练、训练后等6个部分介绍了V4。而这份高度专业的技术报告中，隐藏了10个有意思的小彩蛋。

01 彩蛋一：“Think Max”模式，绝不允许走捷径的“压榨”指令

位置：第30页，Table 3

原文为：

Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking… rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.

翻译过来，大概的意思就是：

推理投入度：绝对最大化，不容许任何捷径。你的思考必须极其彻底，全面拆解问题以触及根本原因，并针对所有可能的路径、边缘案例及对抗性场景，对你的逻辑进行严苛的压力测试。要明确写出完整的深思过程，记录每一个中间步骤、考虑过的替代方案以及被否决的假设，确保绝对没有任何未经审视的预设。

这段话是模型开启 Think Max（极致思考模式）时，后台偷偷塞给大模型的“系统提示词（System Prompt）”。写得极具压迫感，像是一个严厉的导师在逼学生榨干脑力，不准有任何偷懒。

DeepSeek为其式设定了一套极为严苛的系统提示词。用词极具压迫感，还全部使用了绝对祈使句：“绝对最大化”“不许走捷径”“必须彻底”“严酷地压力测试”“不放过任何一个假设”。它还显式地命令模型“禁止走捷径”，要求记录每一个被拒绝的假设和中间步骤。

通过这种极度严厉的工程化Prompt，榨干大模型在 1M Context（百万上下文）里的算力去验证代码和逻辑错误。这就像是给模型戴上了“逻辑紧箍咒”，确保在处理复杂逻辑或代码时，模型不会因为追求速度而忽略细节。

02 彩蛋二：给硬件厂商的“公开信”：别瞎忙活带宽了

位置：第16页，Section 3.1

原文为：

Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.

意思是：

一旦带宽达到该阈值，便不再是瓶颈，此时将更多的芯片面积用于进一步提升带宽，会带来边际收益递减。我们鼓励未来的硬件设计瞄准这样的平衡点，而非一味地无条件扩展带宽。

DeepSeek在报告中反客为主，给英伟达和华为等硬件厂商开出了“方子”。体面表达了他们在硬件方面的观点：盲目提升带宽对现在的AI训练效率提升有限，建议厂商把芯片面积留给更能提高计算通信比的地方。

03 彩蛋三：极致效率，1M长度下仅需V3.2的10%缓存

位置：摘要，Abstract

原文：

In the one-million-token context setting, DeepSeekV4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.

意思是：

在百万级token上下文设定下，与DeepSeek-V3.2相比，DeepSeek-V4-Pro仅需其27%的单token推理FLOPs，以及10%的KV缓存。

DeepSeek在“省钱”和“省资源”上达到了变态的程度。

通过 CSA（压缩稀疏注意力）和 HCA（重度压缩注意力）技术，它在处理100万字的长文本时，占用的内存竟然只有前代版本的十分之一。这意味着未来个人电脑甚至手机运行百万超长文本分析将成为可能。

04 彩蛋四：坦诚的“炼丹玄学”：知其然不知其所以然

位置：第26页，Section 4.2.3

原文为：

Although a comprehensive theoretical understanding of their underlying mechanisms remains an open question for now, we are sharing them openly to foster further exploration by the community.

意思是：尽管目前对其底层机制的全面理论理解仍是一个悬而未决的问题，但我们将其公开分享，以推动社区的进一步探索。

在Mitigating Training Instability 缓解训练不稳定性章节中，DeepSeek团队分享了两个解决万亿参数模型训练崩溃的独门绝技，Anticipatory Routing和SwiGLU Clamping。

技术报告中，他们也非常耿直地承认：这种“虽然我不知道原理是啥，但它跑起来确实有用，大家拿去用吧”的坦诚，可以说是AI炼丹界的真实写照了，非常有开源精神。

05 彩蛋五：“快指令”（Quick Instruction）特供Token

位置：第33页，Table 5

为了让Chatbot响应更快，DeepSeek在模型内部植入了一系列专用Token“暗号”。

V4之所以能这么快，是因为它直接复用了已经算好的长文本 KV Cache（缓存）。不用像以前那样把几十万字重新喂给另一个小模型去判断，从而彻底消除了“冗余的预填充（redundant prefilling）”，这样用户的等待时间就能大幅缩短。

06 彩蛋六：Codeforces全球排名第23位

位置：第39页，Section 5.3.2

原文为：On the Codeforces leaderboard, DeepSeek-V4-Pro-Max currently ranks 23rd among human candidates.

这句话的意思是，在 Codeforces 排行榜上，DeepSeek-V4-Pro-Max 当前在人类参赛者中位列第23名。

这个“彩蛋”极具含金量。在纯人类参与的全球顶级编程竞赛Codeforces排名中，DeepSeek-V4的预估分值（3206分）足以排到全球第23名。这意味着它已经超越了绝大多数顶级程序员，进入了人类编程智力的最顶端一小撮。

07 彩蛋七：内部“员工大调查”，52%的人已离不开它

位置：第44页，Section 5.4.4

原文为：

In a survey asking DeepSeek developers and researchers (= 85) — all with experience of using DeepSeek-V4-Pro for agentic coding in their daily work— whether DeepSeek-V4-Pro is ready to serve as their default and primary coding model compared to other frontier models, 52% said yes, 39% leaned toward yes, and fewer than 9% said no.

翻译过来是：

在一项面向DeepSeek开发者和研究人员的调查（N=85）中，这些受访者均有在日常工作中使用DeepSeek-V4-Pro进行智能体编码的经验。当被问及与其他前沿模型相比，DeepSeek-V4-Pro是否已准备好成为他们默认且主要的编程模型时，52%给出了肯定回答，39%倾向于肯定，而表示否定的不足9%。

DeepSeek非常罕见地公开了公司内部85名顶尖研究员的真实反馈。超过一半的DeepSeek内部核心人员已经将其作为日常首选编程工具。这种“吃自己的狗粮”的行为比跑分数据更能说明模型在实际生产中的情况。

08 彩蛋八：内部员工的真实“吐槽”被写进技术报告

位置：第44页，Section 5.4.4

原文：

Respondents find DeepSeek-V4-Pro to deliver satisfactory results across most tasks, but note trivial mistakes, misinterpretation of vague prompts, and occasional over-thinking.

翻译过来就是：

受访者认为DeepSeek-V4-Pro在大多数任务上都能给出令人满意的结果，但也指出它存在一些细小的错误、对模糊提示的理解偏差，以及偶尔的过度思考。

这句话紧挨着上一条“内部员工调查”的彩蛋，DeepSeek选择把内部员工的吐槽也写了进去。

09 彩蛋九：接地气的“中国特色”评测题

位置：第43页，Figure 13

为了展示模型在复杂长文本白领工作中的能力，DeepSeek放出的示例任务非常接地气。

“写一份某知名奶茶品牌与北京地铁的联名营销策划”“UGC传播与社交裂变设计”，比起国外大模型测写全英文的莎士比亚诗歌，DeepSeek的评测题真的很懂国内打工人的日常PPT需求。

10 彩蛋十：致谢名单里的神秘测试Dolly Deng

位置：第55页，附录 A.2 致谢部分

附录 A.2 致谢（Acknowledgment）部分，除了全体作者外，团队特别单独点名感谢了一位非作者人士：“We would like to thank Dolly Deng and other testers for their valuable suggestions and feedback…”

翻译过来就是，我们要感谢 Dolly Deng 及其他测试人员，就DeepSeek-V4系列模型的能力所提出的宝贵建议与反馈。

能在这样一份AI基础模型技术报告中被单独拎出来感谢的测试（或外部反馈者），不知道他在V4内测期间提交了怎样关键的Bug或改进建议。

作者：许有阳

来源：盒饭财经

DeepSeek V4 发布，全网最细解读 & 技术报告拆解

青瓜传媒 — Mon, 27 Apr 2026 01:54:56 +0000

昨天上午，「DeepSeek-V4」发布并开源

DeepSeek V4 分两档

Pro 是 1.6T 总参、49B 激活

Flash 是 284B 总参、13B 激活

两档都支持 1M token 上下文、都开源，并给出了技术报告

V4 一图看懂：Pro 1.6T/49B、Flash 284B/13B，两档都给 1M 上下文

能干什么

V4-Pro 在四个方向上都跨过了一个台阶

Agent 能力

Agentic Coding 评测里 V4-Pro 已经到当前开源最佳水平。DeepSeek 公司内部已经把 V4 作为默认编码模型，反馈是优于 Sonnet 4.5，交付质量接近 Opus 4.6 的非思考模式，和 Opus 4.6 的思考模式还有差距。这次还专门为 Claude Code、OpenClaw、OpenCode、CodeBuddy 这几个主流 Agent 产品做了适配优化，代码任务和文档生成任务都有提升

世界知识

Pro 在知识评测里大幅领先其他开源模型，稍逊于 Gemini-3.1-Pro。SimpleQA-Verified 拿到 57.9，比 Opus-4.6-Max 的 46.2 和 GPT-5.4-xHigh 的 45.3 都高出一截

推理性能

数学、STEM、竞赛代码三类测评里，Pro 超过所有已公开评测的开源模型，和世界顶级闭源模型打平。LiveCodeBench Pass@1 拿到 93.5，Codeforces Rating 3206，都是对比组最高

长文本

Pro 在 1M token 的合成基准和真实任务上都很强，学术评测超过 Gemini-3.1-Pro。MRCR 1M 拿到 83.5，CorpusQA 1M 拿到 62.0

V4-Pro-Max 在 8 个核心 benchmark 头部模型对比

Flash 模型则是另一种取舍：主打便宜，知识题稍逊一筹，但推理能力接近 Pro。在简单的 Agent 任务下，素质和 Pro 旗鼓相当，高难度任务还得看是 Pro

这种分档思路，类似 Claude 的 Sonnet/Opus、GPT 的 Mini/Pro

1M 成了标配

以前 DeepSeek 网页版最多 128K，1M 是灰度测试。从今天开始 1M 是全线官方服务的默认上下文，包括 chat、API、网页、App

这个变化背后，是新的注意力机制

V4 在 token 维度做压缩，再叠加 DeepSeek 自家的 DSA 稀疏注意力。效果是 1M 上下文下，V4-Pro 的单 token 推理 FLOPs 只要 V3.2 的 27%，KV cache 只要 V3.2 的 10%。V4-Flash 更极致，单 token FLOPs 只要 V3.2 的 10%，KV cache 只要 7%

V4 系列对 V3.2 的算力和显存对比，随上下文长度拉得越长差距越明显

对于一百万 token 来说，一次性塞入《三体》三部曲，还绰绰有余，，再叠加 V4 在多轮对话里保留全部 reasoning 历史，长程 Agent 任务的连贯性也有了保障

1M 上下文：从灰度能力变成全线标配

架构三件套

先简单看一下 DeepSeek V4 的架构图，看不懂也不要紧，后面有助记版（方便大家吹牛逼）

V4 的 MoE 框架沿用 V3 的 DeepSeekMoE，并做了三处升级

下面具体说说这三个升级

Hybrid Attention：CSA + HCA

两种注意力层交错使用

CSA（Compressed Sparse Attention）

的做法是先把每 m 个 token 的 KV 压成一个 entry，再跑 DSA 稀疏注意力，每个 query 只关注 k 个压缩 entry。Flash 版本里 m=4，indexer query head 64 个，head dim 128，sparse attention top-k=512

HCA（Heavily Compressed Attention）

这个更激进，每 m′ 个 token 压一个，m′ 远大于 m，Flash 里 m′=128。HCA 不做稀疏选择，保持稠密注意力

这两个东西，一个管长距离，一个管超长压缩。除了核心结构，CSA 和 HCA 还共用了几个细节：

query 和 KV entry 的最后 64 维加 RoPE，做 partial rotary 位置编码；
core attention 用 attention sink 技巧，给每个 head 加可学习的 sink logit；
同时各自挂一个 sliding window attention 分支处理近邻 token，避免被压缩压掉局部依赖

mHC：流形约束的残差连接

mHC 全称 Manifold-Constrained Hyper-Connections。用流形约束强化残差连接，把残差映射矩阵约束在双随机矩阵流形（Birkhoff polytope）上。这个约束保证了映射矩阵的谱范数有界、传播非膨胀，深层堆叠也不跑飞

实现上，mHC 把残差宽度和 hidden size 解耦，用一个比 hidden size 小得多的 expansion factor n（V4 里 n=4）控制额外开销。参数动态生成，分输入相关和输入无关两部分，输入相关那部分由当前 token 的 hidden state 经 RMSNorm 后产出。这是 DeepSeek 在 1 月公开的论文成果，V4 是第一次进旗舰模型

Muon 优化器

DeepSeek 把大部分模块的优化器从 AdamW 换成 Muon。embedding、prediction head、静态 bias、RMSNorm 这些保留 AdamW，其余走 Muon

Muon 的核心是用 Newton-Schulz 迭代做矩阵正交化，DeepSeek 在标准 Newton-Schulz 基础上做了改进，叫 Hybrid Newton-Schulz。再叠加 Nesterov trick 和 RMS rescaling，让 AdamW 的超参数可以直接复用。收敛更快，稳定性更好

另外，MoE 部分虽然继承自 V3，但也有改动

门控函数从 Sigmoid 换成 Sqrt(Softplus)，前几层 dense FFN 换成 Hash 路由的 MoE，路由目标节点数不再限制，auxiliary-loss-free 负载均衡和 sequence-wise balance loss 一起用。Flash 的 MoE 配置是 1 个共享专家加 256 个路由专家，每 token 激活 6 个，专家 hidden dim 2048

训练账

V4-Flash 预训练 32T token，V4-Pro 预训练 33T token。token 化沿用 V3 的 tokenizer，扩了几个 special token，词表保持 128K。文档拼接和 Fill-in-Middle 策略也继承自 V3，做了 sample-level attention masking

精度方面，MoE 的路由专家参数用 FP4 精度，其他参数大部分用 FP8。这是 DeepSeek 第一次在旗舰模型上全面跑 FP4 量化感知训练。当前硬件上 FP4 乘 FP8 的峰值算力和 FP8 乘 FP8 一样，理论上新硬件可以做到快 1/3

训练 schedule 上，序列长度从 4K 起步，逐步扩到 16K、64K、最后到 1M。注意力机制先用稠密注意力暖到 1T token，64K 序列长度时切到稀疏注意力，再继续训练。batch size 从小逐步爬到 75.5M token。学习率 linear warmup 2000 步，2.7×10⁻⁴ 维持大部分训练，最后 cosine 衰减到 2.7×10⁻⁵

稳定性上做了两件事。Anticipatory Routing 是把 backbone 网络和 routing 网络的同步更新解耦，用前一步的网络参数提前算好这一步的 routing indices，避免 loss spike，几乎没有额外开销。SwiGLU Clamping 借自 GPT-OSS 的做法，对 SwiGLU 输出做截断，消除 outlier，对训练性能没有损失

Base 模型的评测里，V4-Flash-Base 用 13B 激活在大多数任务上已经追平甚至超过用 37B 激活的 V3.2-Base，参数效率明显提升

MMLU 88.7、MMLU-Redux 89.4、C-Eval 92.1、CMMLU 90.4 都比 V3.2-Base 高。Code 类任务里 HumanEval Pass@1 拿到 69.5，比 V3.2-Base 的 62.8 高出 7 个点。V4-Pro-Base 在世界知识、推理、代码、长文本四个方向上全面拉开和 V4-Flash-Base 的差距，Simple-QA verified 拿到 55.2，FACTS Parametric 拿到 62.6，是 V3.2-Base 的两倍多

后训练

V3.2 的后训练是 SFT 加 mixed RL。V4 把 mixed RL 阶段整个换成了 On-Policy Distillation（OPD），这是这次后训练里最关键的方法学替换

在后训练阶段，整体流程拆成两步：

第一步是领域专家培育（Specialist Training），每个目标领域单独训练一个专家模型

第二步是 On-Policy Distillation 融合，把所有专家合到一个学生模型里

第一步：领域专家培育

每个领域走相同的两段流程：SFT 打底，再用 GRPO 做 RL，每个领域配自己的奖励模型。已经做过的领域包括数学、代码、Agent、指令跟随等

每个领域还要训三种推理强度的子版本，分别对应 Non-think、Think High、Think Max。三种模式在 RL 训练时用不同的 length penalty 和 context window：Non-think 用短上下文窗口，Think High 用 128K，Think Max 用 384K，把推理预算拉满

做 Agent 类专家时还引入了 Quick Instruction 机制。聊天产品里有很多附加任务，比如判断是否触发搜索、识别意图。传统做法是另一个小模型做这些，每次都要重新 prefill。V4 的做法是给输入序列直接附一组 special token，每个 token 对应一个附加任务，复用现成的 KV cache，省掉冗余 prefill，把首字延迟（TTFT）压下来

第二步：On-Policy Distillation 融合

第二步把所有专家合到一个学生模型里。做法是让学生在自己生成的 trajectory 上学多个 teacher 模型的 output 分布。这个范式比传统的 SFT 蒸馏更接近 RL 的精神，因为分布匹配是在学生当前策略下的状态分布上做

为了支撑 OPD 在万亿规模上跑通，DeepSeek 做了几件 infra 上的事。teacher 权重统一存到中心化分布式存储，按需加载、用 ZeRO 风格 sharding，I/O 和 DRAM 都减压。词表 100K+ 的 logits 不能全展开存盘，只缓存学生 trajectory 上必要的部分。rollout 用 FP4 量化加速。rollout 服务支持抢占和容错，靠 token 级别的 WAL 加 KV cache 持久化，硬件出错也能从断点续上，避免重新生成带来的长度偏差

百万 token 上下文的 RL 也单独优化。rollout 数据拆成 metadata 和 per-token 两层，metadata 全量加载做 shuffle 和 packing，per-token 用共享内存懒加载、用完即放，CPU 和 GPU 内存都不堆积

Agent 训练靠一套叫 DSec 的 sandbox 基础设施。统一接口屏蔽 container、microVM、TTY 等差异，单集群可以扛几十万个 sandbox 并发。镜像走 3FS 分层加载，毫秒级启动。每个 sandbox 维护一份全局有序的 trajectory log，记录每条命令和结果。训练任务被抢占时，sandbox 资源不释放，恢复时直接 fast-forward 到上次断点，避免重复执行非幂等操作

三种思考强度

V4-Pro 和 V4-Flash 都支持三种思考强度：Non-think、Think High、Think Max

Non-think。直觉式回应，不展开思考。日常对话、低风险决策走这个。返回格式是空的加 summary
Think High。有意识的逻辑分析，慢但准。复杂问题、规划类任务走这个。返回格式是思考加 summary
Think Max。把推理强度推到极限，探索模型推理能力的边界。需要特殊 system prompt 触发。返回格式同 Think High

但另外来说，Flash-Max 在大多数任务上能逼近 Pro-High。预算紧的时候 Flash 够用，关键任务再上 Pro

从 V3.2 到 V4 的另一个变化，是 thinking 内容的处理

V3.2 在每个新用户消息开始时丢弃 thinking trace
V4 在工具调用场景里完整保留全部 reasoning content，包括跨用户消息边界

这项改进对对长程 Agent 任务的连贯性有直接帮助，模型能在多轮调用之间维持一条完整的累积思考链。

基础设施这次也是重点

技术报告，里给「基础设施」单独留了一整章，份量跟架构和训练并列

细粒度专家并行通信

DeepSeek 自己改写的 DeepGEMM 推出了 mega-kernel MegaMoE，对比强 baseline，通用推理 1.50 到 1.73 倍加速，RL rollout 这种小批长尾场景能到 1.96 倍

这个 kernel 在 NVIDIA GPU 和华为昇腾 NPU 两个平台上都做了验证，已经开源

Kernel 开发

从 CUDA/Triton 切到了北大开源的 TileLang。TileLang 把大部分 host-side 逻辑用 Host Codegen 移到生成代码里，CPU 侧 validation overhead 从几百微秒压到很低。同时 TileLang 提供了 IEEE 兼容的数值原语和精确的 layout 标注，能做到和手写 CUDA 比特级一致

确定性 kernel 库

所有 kernel 做了 batch invariance 和 deterministic 两件事。同一个 token 在批里的位置变了，输出比特一致；同一个输入跑两次，输出也比特一致。这两件事对 debug、稳定性分析、post-training 一致性都有用。pre-training、post-training、inference 三段流水线之间，能做到比特对齐

FP4 量化感知训练

FP8 mixed precision 框架基本沿用 V3，没改 backward 流程。FP4 用 simulated quantization：forward 时把 FP8 master weight 量化到 FP4 跑，backward 时梯度直接传给 FP32 master weight，等价于 STE（Straight-Through Estimator）穿透量化算子。inference 和 RL rollout 阶段直接用真 FP4 权重，省内存、加速

Muon 的工程化实现

Muon 需要完整的梯度矩阵做参数更新，跟 ZeRO 的 element-wise 切分有冲突。DeepSeek 设计了一套 hybrid ZeRO bucket 分配策略，dense 参数限制并行度并用 knapsack 算法做负载均衡，MoE 路由专家参数用 EP 分组分配。整体能跑下来，没有牺牲并行性

On-Disk KV Cache

推理框架的 KV cache 管理重新做了。CSA 和 HCA 的 KV entry 异质，sparse 选择又引入了额外维度，所以专门设计了一套 KV cache layout，拆成 state cache（SWA + 未压缩 tail）和 classical KV cache（CSA、HCA 的压缩 entry）两块。开盘存储方面，CSA 和 HCA 的压缩 entry 全部存到 disk，请求命中前缀时直接读复用；SWA 因为体量大约是压缩 entry 的 8 倍，给了三种策略可选：全缓存、定期 checkpoint、零缓存即重算

成绩单：V4-Pro-Max 站到哪一档

对比口径是 V4-Pro-Max，对手是 Opus-4.6-Max、GPT-5.4-xHigh、Gemini-3.1-Pro-High、K2.6-Thinking、GLM-5.1-Thinking 五个，覆盖了开源和闭源的当下顶尖位置

代码方面，LiveCodeBench Pass@1 93.5、Codeforces Rating 3206、Apex Shortlist 90.2，三项都是对比组最高。Codeforces 上 3206 比 GPT-5.4-xHigh 的 3168 高一点

知识方面，MMLU-Pro 87.5 接近对比组中位，SimpleQA-Verified 57.9 高于除 Gemini 之外所有模型，Chinese-SimpleQA 84.4 接近 Gemini 的 85.9。HLE 37.7，比 Gemini 的 44.4 有距离，是最明显的短板

Agent 方面，Terminal Bench 2.0 67.9、SWE Verified 80.6、SWE Multilingual 76.2、MCPAtlas 73.6，整体和 Opus-4.6-Max、K2.6-Thinking 在同一档。GDPval-AA 1554 比 GPT-5.4-xHigh 的 1674 落后一些

长文本方面，MRCR 1M 83.5、CorpusQA 1M 62.0。MRCR 上超过 Gemini-3.1-Pro 的 76.3，但仍然低于 Opus-4.6 的 92.9。CorpusQA 同样是 Opus 第一。在 128K 范围内 V4 的 retrieval 表现非常稳，128K 之后开始下降但仍然有竞争力。

另外，数学和形式化推理这块，HMMT 2026 Feb 拿到 95.2，IMOAnswerBench 89.8。Putnam-2025 上以 hybrid formal-informal 推理拿到 120/120 满分，对比 Aristotle 100/120、Seed-1.5-Prover 110/120、Axiom 120/120

1M 长上下文的 MRCR 8-needle 测评里，V4-Pro-Max 在 8K 范围内能到 0.94，128K 能到 0.92，512K 还能维持 0.85，1M 衰减到 0.66，但仍然是同档对比里最稳的开源模型。Flash-Max 在 128K 内表现接近 Pro，128K 之后衰减更快。这意味着 V4 在中等长度（200K 以下）的真实工作流里基本不会丢信息，只有在 512K+ 的极限场景下才需要担心 retrieval 漂移

真实任务上的表现

Benchmark 之外，V4 还做了几个真实任务的对比

中文写作

这是 DeepSeek 用户最常用的场景之一。

V4-Pro 对 Gemini-3.1-Pro 在功能性写作上的胜率 62.7%，Gemini 34.1%。

给 Gemini 的解释是它在中文写作里经常自己加戏，盖过用户的明确要求。

创意写作上 V4-Pro 对 Gemini-3.1-Pro 的指令跟随胜率 60.0%，写作质量胜率 77.5%。但在最难的多轮约束写作上，Opus 4.5 仍然有 52.0% 对 45.9% 的胜率优势

搜索

Chatbot 的核心能力之一。Non-think 走 RAG，Thinking 走 Agentic Search。pairwise 评测里 V4-Pro 在客观和主观 Q&A 上都明显优于 V3.2，最大优势在 single-value 检索和 planning & strategy 类任务。

在比较类和推荐类任务上，V3.2 还有竞争力。Agentic Search 比 RAG 在复杂任务上明显领先，成本只略高于 RAG

白领任务

30 个中文高级专业任务，分析、生成、编辑三类。

V4-Pro-Max 对 Opus-4.6-Max 总体胜率 53%、平 10%、负 37%。

分维度看，任务完成度 96.68 高于 Opus 的 88.88，内容质量 87.76 接近 Opus，指令跟随 84.06 略低于 Opus，格式美观度 72.68 比 Opus 的 86.52 有差距，特别是在 PPT 类任务的视觉呈现上

V4-Pro 在 Agent 框架下生成的 PPT 内页，营销策划完整版

Code Agent

从 50 多位内部工程师日常工作里抽的 30 个真实 R&D 任务，覆盖 PyTorch、CUDA、Rust、C++ 等多种技术栈。V4-Pro-Max 通过率 67%，高于 Sonnet 4.5 的 47%，接近 Opus 4.5 的 70% 和 Opus 4.5 Thinking 的 73%，不如 Opus 4.6 Thinking 的 80%。85 位 DeepSeek 员工被问「V4-Pro 能不能作为你日常编码的主力模型」，52% 说 yes，39% 倾向 yes，9% 以下说 no。反馈里提到的短板是小错误、模糊 prompt 的解读、偶尔过度思考

整体看下来，V4 在中文写作、专业文档、代码工程这些 DeepSeek 用户基数最大的场景上都明显往前了一步。短板集中在 PPT 视觉呈现这种格式美感类任务、还有最复杂的多轮编码场景，Opus 仍然有领先

API 怎么用

新模型名：deepseek-v4-pro 和 deepseek-v4-flash，base_url 不变

接口兼容：同时支持 OpenAI ChatCompletions 和 Anthropic 接口两套标准

思考模式：thinking.type 设 enabled 或 disabled，默认开。

思考强度 reasoning_effort 取 high 或 max。对普通请求默认 high，对 Claude Code、OpenCode 这类复杂 Agent 请求自动升 max。兼容考虑下 low 和 medium 映射为 high，xhigh 映射为 max

旧模型名过渡：deepseek-chat 和 deepseek-reasoner 将在 2026-07-24（三个月后）停用。过渡期内这两个名字分别指向 deepseek-v4-flash 的非思考模式和思考模式

定价。V4-Pro 输入缓存命中 1 元／百万 token，未命中 12 元／百万 token，输出 24 元／百万 token。V4-Flash 对应 0.2 元／1 元／2 元

定价表附了一行小字：受限于高端算力，目前 Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调

V4-Pro 和 V4-Flash 的 API 定价，下半年昇腾 950 上市后 Pro 还会再降

注意：旧模型名 7 月 24 号到期

能现在用

网页 chat.deepseek.com 或官方 App 可以直接对话。API 改 model 参数就能用。开源权重在 HuggingFace 和 ModelScope 上，MIT 协议，有 Pro/Flash 各自的 Base 和 instruct 版本

本地部署推荐采样参数 temperature=1.0、top_p=1.0。Think Max 模式上下文窗口建议至少 384K。Chat template 这次没出 Jinja 格式，给的是一个独立的 encoding 模块，包 Python 脚本和测试用例，把 OpenAI 兼容格式编码成模型输入串、再解析模型输出

在技术报告的结尾，DeepSeek 还规划了未来方向：

更稀疏的 embedding 模块
低延迟架构
长程多轮 Agent 任务
多模态

另外，DeepSeek V4 目前仍不支持多模态参考材料

DeepSeek-V4 官方公告

https://chat.deepseek.com

DeepSeek-V4 HuggingFace 模型集合

https://huggingface.co/collections/deepseek-ai/deepseek-v4

DeepSeek-V4 ModelScope 模型集合

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技术报告 PDF

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek API 思考模式文档

https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

作者：赛博禅心

来源：赛博禅心

DeepSeek-V4 预览版：迈入百万上下文普惠时代

青瓜传媒 — Sat, 25 Apr 2026 00:15:29 +0000

今天，我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。

DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本：

即日起登录官网 chat.deepseek.com 或官方App，即可与最新的 DeepSeek-V4 对话，探索 1M 超长上下文记忆的全新体验。API 服务已同步更新，通过修改 model_name 为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。

DeepSeek-V4-Pro：性能比肩顶级闭源模型

Agent 能力大幅提高：相比前代模型，DeepSeek-V4-Pro 的 Agent 能力显著增强。在 Agentic Coding 评测中，V4-Pro 已达到当前开源模型最佳水平，并在其他 Agent 相关评测中同样表现优异。目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。
丰富的世界知识：DeepSeek-V4-Pro 在世界知识测评中，大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。
世界顶级推理性能：在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。

DeepSeek-V4-Flash：更快捷高效的经济之选

相比 DeepSeek-V4-Pro，DeepSeek-V4-Flash 在世界知识储备方面稍逊一筹，但展现出了接近的推理能力。而由于模型参数和激活更小，相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。
在 Agent 测评中，DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当，但在高难度任务上仍有差距。

结构创新和超高上下文效率

DeepSeek-V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。从现在开始，1M（一百万）上下文将是 DeepSeek 所有官方服务的标配。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

Agent 能力专项优化

DeepSeek-V4 针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化，在代码任务、文档生成任务等方面表现均有提升。下图为 V4-Pro 在某 Agent 框架下生成的 PPT 内页示例

API 访问

目前，DeepSeek API 已同步上线 V4-Pro 与 V4-Flash，支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时，base_url 不变， model 参数需要改为 deepseek-v4-pro 或 deepseek-v4-flash。

V4-Pro 与 V4-Flash 最大上下文长度为 1M，均同时支持非思考模式与思考模式，其中思考模式支持 reasoning_effort 参数设置思考强度（high/max）。对于复杂的 Agent 场景建议使用思考模式，并设置强度为 max。模型调用与参数调整方法请参考 API 文档：

https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

请大家注意：旧有的 API 接口的两个模型名 deepseek-chat 与deepseek-reasoner 将于三个月后（2026-07-24）停止使用。当前阶段内，这两个模型名分别指向deepseek-v4-flash 的非思考模式与思考模式。

开源权重和本地部署

DeepSeek-V4 模型开源链接：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技术报告：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

写在后面的话

「不诱于誉，不恐于诽，率道而行，端然正己。」

感谢每一位用户的信任与支持，大家的肯定、建议和期许，是我们不竭探索、持续进步的动力，也让我们始终坚守初心，专注于不懈的创新。

我们将始终秉持长期主义的原则理念，在尝试与思考中踏实前行，努力向实现 AGI 的目标不断靠近。

作者：Deepseek