DeepSeek V4 Shockwave: Million-Token Context Becomes Standard, Battle for Agent Infrastructure Begins

作者 | 林克

4 月 24 日，备受关注的 DeepSeek 的 V4 模型预览版终于发布并同步开源了权重。

这次发布的两个版本，一个是总参数 1.6 万亿，激活 49B 的旗舰版 V4 PRO，一个是经济型 V4-Flash，总参数 284B，激活 13B，均支持 100 万 token 上下文，MIT 协议完全开源。

就在前一天，OpenAI 刚刚上线 GPT-5.5，每百万输出 token 定价 30 美元。今天 DeepSeek V4-Flash 的输出定价是 2 元人民币/百万 token，折合不到 0.3 美元。

前后两天，闭源与开源的两种定价逻辑，面对面呈现在了市场面前。

一、时点：三次跳票之后

DeepSeek 这一天来得不算突然，但比所有人预期的都晚。

从去年底到今年 2 月、3 月、4 月初，DeepSeek V4 的发布窗口推了三次，行业里各大模型的频繁更新几乎进入了最密集的时刻。

必须承认在 2026 年 4 月末，百万上下文已称不上是绝对领先，Gemini、Qwen 等都到了这个量级。这次DeepSeek V4 落地，要回答的不是"能不能做到"，而是"做到了之后，成本撑不撑得住"。

V4 给出的回答是一套全新的混合注意力架构。它在 token 维度引入压缩机制，结合自研的 DSA 稀疏注意力，其让模型在处理超长文本时不再对所有 token 做全量计算，而是区分轻重：强关联的 token 精读，弱关联的压缩或跳过。

这套机制从预训练阶段就改变了模型处理长序列的方式。根据技术报告，V4 还引入了流形约束超连接（mHC），替代传统残差连接来增强深层网络信号传播的稳定性，并使用 Muon 优化器提升训练收敛速度。整个模型在超过 32 万亿 token 上完成了预训练。

实际效果用两个数字就能概括：在百万 token 上下文设置下，V4-Pro 每处理一个 token 的算力消耗只有 V3.2 的 27%，KV 缓存占用只有 10%。

官方在公告里说得更清楚："从现在开始，1M 上下文将是 DeepSeek 所有官方服务的标配。"这意味着长上下文正式从"加价功能"变成了"默认配置"，这对整个行业的成本预期是一次重新校准。

二、矩阵：两型号 + 三模式

在这次发布中，旗舰 V4-Pro 和经济型 V4-Flash 都支持三种推理模式：非思考模式（快速响应）、思考模式 - 高（显式推理链）、思考模式 - 极限（推到模型能力边界）。官方建议复杂 Agent 场景使用极限模式。

DeepSeek 对 V4-Pro 的定位给了一个直白的对标：内部员工已经把它当作日常 Agentic Coding 工具使用，体验优于 Claude Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但与 Opus 4.6 思考模式仍有差距。

推理性能方面，在数学、STEM 和竞赛型代码评测中超越当前所有已公开评测的开源模型，比肩世界顶级闭源模型；世界知识大幅领先其他开源模型，稍逊于 Gemini-Pro-3.1。

V4-Flash 的推理能力接近 Pro 版，但世界知识储备稍逊；简单 Agent 任务旗鼓相当，高难度任务有差距。

这组自评有一处值得注意，DeepSeek 主动划出了与 Opus 4.6 思考模式的差距，在国产大模型发布话术的传统里，这种克制本身就是一种技术自信的表达。

三、扳机：Token 价格差

随着预览版的公开，V4 的 API 定价已随发布同步上线。

每百万 token，V4-Flash 的输入价是 1 元（缓存命中 0.2 元），输出价 2 元；V4-Pro 的输入价 12 元（缓存命中 1 元），输出价 24 元。官方注明这是预览版定价，Pro 版下半年算力扩容后将大幅下调。

这组数字需要放在坐标系里看才有意义。

Flash 版每百万 token 输入 1 元——这个价格让几乎所有开发者都能无负担地调用一个万亿参数级 MoE 架构的开源旗舰模型。

对比之下，GPT-5.5 前一天刚刚上线的输出定价是 30 美元/百万 token，折合人民币超过 200 元，与 V4-Flash 的 2 元输出价差距超过 100 倍。即便拿 V4-Pro 的 24 元输出价来比，差距仍在一个数量级以上。

Pro 版当前价格较高，但官方已经给出了明确的降价预期。背后的约束并非定价策略，而是算力供给——Pro 版的高性能推理对芯片资源要求更高，当前服务吞吐十分有限。这也从侧面印证了 V4 在自主算力适配上的深度投入。

缓存命中的折扣幅度同样值得关注。Flash 的缓存命中价只有未命中价的五分之一，Pro 是十二分之一。

这意味着 DeepSeek 在用定价杠杆鼓励一种使用方式：把系统提示词、工具定义、文档模板等固定内容放在请求头部，让缓存机制自动生效，对于 Agent 类应用，这恰好是最典型的调用模式。

用 Flash 的白菜价铺量，用 Pro 的高阶能力撑住顶端场景，用缓存机制降低 Agent 开发者的边际成本。每一刀都切在应用层最痛的地方。

四、方向：Agent 底座

如果在 V4 的发布里只提炼一个关键标签，那么 Agent 比百万上下文或许更重要。

官方明确写道：V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了专项适配和优化，在 Agentic Coding 评测中达到开源模型最佳水平。这份适配名单同时包含 Anthropic 的产品和国产开发者工具。

这个信号很明确，DeepSeek 不打算自建应用生态，而是要成为 Agent 时代的底座供应商。

这个选择放在当前的行业格局里是一个有意识的取舍。Anthropic 的年化收入过去四个月从 90 亿美元翻到 300 亿美元，增量几乎全部来自 Claude Code；Cursor 一个代码编辑器估值已到 600 亿美元。应用层的钱在那里，但 DeepSeek 选择不去碰。

这说明它的定位不是下一个 Anthropic，更有可能是 Agent 时代的基础设施。

长上下文 + 低价 API+Agent 适配的组合，本质上是把自己做成一个供电站，让所有电器都能更便宜地跑起来。

对于那些整天跟 Token 消耗作斗争的 Agent 开发者来说，V4 打开的是一个具体的场景：把整个代码仓库、完整的需求文档、几百轮历史对话一次性塞进调用，不再需要切分、检索、摘要这套工程绕路。过去做 Agent 最头疼的就是上下文管理——每多一轮对话，token 就指数级堆叠，成本和稳定性同时恶化。

V4 如果能在真实负载下兑现承诺，这个痛点的成本结构将被改写一次。

五、生态：模型、算力赛跑

V4 延期的这段时间里，国产开源大模型的战场从未安静过。

今年农历年前后出现了一次密集爆发：阿里 Qwen3.5 总参数 3970 亿、激活仅 170 亿，百万 token 的 API 价低至 0.8 元，是 Gemini-3-Pro 的十八分之一；智谱 GLM-5 的代码生成的 HumanEval96.2% 打到开源最强。

4 月继续加速：Kimi K2.6 在 SWE-Bench Verified 上拿到 80.2%，几乎追平 Claude Opus 4.6；智谱 GLM-5.1 在 SWE-Bench Pro 上以 58.4% 超过了 GPT-5.4 和 Claude Opus 4.6；Qwen 3.6 Plus 也跨入百万 token 上下文行列。

Qwen、Kimi、GLM、MiniMax、MiMo，这些国产模型在国际开发者社区的出现频率正在肉眼可见地上升。

除了模型，算力侧的匹配也在同步落地。

华为在 V4 发布同日确认昇腾全系列产品——A2、A3 及最新的昇腾 950 已全面适配 V4-Flash 和 V4-Pro。

措辞是"双方芯模技术紧密协同"，意味着 DeepSeek 和昇腾的适配工作从模型研发阶段就在同步推进。

华为给出了一组具体的性能数据：基于昇腾 950 超节点，V4-Pro 在 8K 输入场景下实现了约 20ms 的单 token 解码时延，单卡吞吐 4700 TPS；V4-Flash 可以做到约 10ms 时延，单卡吞吐 1600 TPS。

昇腾 A3 超节点上，V4-Flash 在 64 卡大规模部署下单卡吞吐超过 2000 TPS。

这些数字背后是昇腾 950 在底层架构上的三项代际升级：原生支持 FP8/MXFP4 等低精度格式（内存占用降低 50% 以上，算力翻倍）、针对 MoE 稀疏访存特征的硬件级优化，以及 Vector 与 Cube 单元共享片上内存的新设计。

更值得关注的是工程生态层面的动作。

华为同步开源了 PyPTO 编程范式，让 V4 新架构中涉及的 Attention 压缩、mHC 等复杂算子的开发周期从周级缩短到天级，开发者不需要手动处理硬件层面的同步和数据搬运。

寒武纪同样在发布当天宣布，已基于 vLLM 框架完成 V4-Flash 和 V4-Pro 的 Day 0 适配，代码开源到 GitHub。

两家国产芯片厂商在模型发布首日就拿出了完整的推理部署方案，这个响应速度本身就说明，适配工作不是临时赶出来的，而是跟模型研发深度咬合了很长时间。

DeepSeek 为这次底层算力迁移付出的工程代价不小。据此前报道，团队重写了大量核心代码，完成了从 CUDA 生态到昇腾 CANN 框架的整套技术栈迁移，这也是 V4 反复跳票的原因之一。

但当一个万亿参数级的开源旗舰模型，在发布首日就能跑在国产算力的全系列产品上，适配代码直接开源，推理性能给出了具体的吞吐和时延数据而不是"即将支持"——这件事的意义，已超出了任何单一模型的评测范畴。

无论模型还是算力，他们之间存在竞争关系，但从更大的维度看，它们都在证明了同一件事：

中国 AI 研发的系统性能力不是一两个特例，而是可以不断连续性创新的生态。

2025 年 1 月，DeepSeek R1 发布，引发美股单日市值蒸发超 1 万亿美元，被业界称为人工智能领域的 “斯普特尼克时刻”。

今天 V4 的发布没有那种戏剧性的震撼，但中国 AI 研发已经从 “偶尔令人震撼” 进入了 “持续在场” 阶段。

DeepSeek 在公告末尾引了《荀子》中的一句话：

不诱于誉，不恐于诽，率道而行，端然正己。

放在一家三次跳票、核心人才流失、刚传出融资的公司身上，这句话读起来有几分倔强。

但在整个国产开源模型群体站出来的 2026 年，这句话不只属于 DeepSeek，更属于中国所有 AI 创新坚定前行的脚步。