
DeepSeek V4 Shockwave: Million-Token Context Becomes Standard, Battle for Agent Infrastructure Begins
作者 | 林克
4 月 24 日,备受关注的 DeepSeek 的 V4 模型预览版终于发布并同步开源了权重。
这次发布的两个版本,一个是总参数 1.6 万亿,激活 49B 的旗舰版 V4 PRO,一个是经济型 V4-Flash,总参数 284B,激活 13B,均支持 100 万 token 上下文,MIT 协议完全开源。
就在前一天,OpenAI 刚刚上线 GPT-5.5,每百万输出 token 定价 30 美元。今天 DeepSeek V4-Flash 的输出定价是 2 元人民币/百万 token,折合不到 0.3 美元。
前后两天,闭源与开源的两种定价逻辑,面对面呈现在了市场面前。

一、时点:三次跳票之后
DeepSeek 这一天来得不算突然,但比所有人预期的都晚。
从去年底到今年 2 月、3 月、4 月初,DeepSeek V4 的发布窗口推了三次,行业里各大模型的频繁更新几乎进入了最密集的时刻。
必须承认在 2026 年 4 月末,百万上下文已称不上是绝对领先,Gemini、Qwen 等都到了这个量级。这次DeepSeek V4 落地,要回答的不是"能不能做到",而是"做到了之后,成本撑不撑得住"。
V4 给出的回答是一套全新的混合注意力架构。它在 token 维度引入压缩机制,结合自研的 DSA 稀疏注意力,其让模型在处理超长文本时不再对所有 token 做全量计算,而是区分轻重:强关联的 token 精读,弱关联的压缩或跳过。
这套机制从预训练阶段就改变了模型处理长序列的方式。根据技术报告,V4 还引入了流形约束超连接(mHC),替代传统残差连接来增强深层网络信号传播的稳定性,并使用 Muon 优化器提升训练收敛速度。整个模型在超过 32 万亿 token 上完成了预训练。
实际效果用两个数字就能概括:在百万 token 上下文设置下,V4-Pro 每处理一个 token 的算力消耗只有 V3.2 的 27%,KV 缓存占用只有 10%。
官方在公告里说得更清楚:"从现在开始,1M 上下文将是 DeepSeek 所有官方服务的标配。"这意味着长上下文正式从"加价功能"变成了"默认配置",这对整个行业的成本预期是一次重新校准。
二、矩阵:两型号 + 三模式
在这次发布中,旗舰 V4-Pro 和经济型 V4-Flash 都支持三种推理模式:非思考模式(快速响应)、思考模式 - 高(显式推理链)、思考模式 - 极限(推到模型能力边界)。官方建议复杂 Agent 场景使用极限模式。
DeepSeek 对 V4-Pro 的定位给了一个直白的对标:内部员工已经把它当作日常 Agentic Coding 工具使用,体验优于 Claude Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但与 Opus 4.6 思考模式仍有差距。
推理性能方面,在数学、STEM 和竞赛型代码评测中超越当前所有已公开评测的开源模型,比肩世界顶级闭源模型;世界知识大幅领先其他开源模型,稍逊于 Gemini-Pro-3.1。
V4-Flash 的推理能力接近 Pro 版,但世界知识储备稍逊;简单 Agent 任务旗鼓相当,高难度任务有差距。
这组自评有一处值得注意,DeepSeek 主动划出了与 Opus 4.6 思考模式的差距,在国产大模型发布话术的传统里,这种克制本身就是一种技术自信的表达。
三、扳机:Token 价格差
随着预览版的公开,V4 的 API 定价已随发布同步上线。
每百万 token,V4-Flash 的输入价是 1 元(缓存命中 0.2 元),输出价 2 元;V4-Pro 的输入价 12 元(缓存命中 1 元),输出价 24 元。官方注明这是预览版定价,Pro 版下半年算力扩容后将大幅下调。
这组数字需要放在坐标系里看才有意义。
Flash 版每百万 token 输入 1 元——这个价格让几乎所有开发者都能无负担地调用一个万亿参数级 MoE 架构的开源旗舰模型。
对比之下,GPT-5.5 前一天刚刚上线的输出定价是 30 美元/百万 token,折合人民币超过 200 元,与 V4-Flash 的 2 元输出价差距超过 100 倍。即便拿 V4-Pro 的 24 元输出价来比,差距仍在一个数量级以上。
Pro 版当前价格较高,但官方已经给出了明确的降价预期。背后的约束并非定价策略,而是算力供给——Pro 版的高性能推理对芯片资源要求更高,当前服务吞吐十分有限。这也从侧面印证了 V4 在自主算力适配上的深度投入。
缓存命中的折扣幅度同样值得关注。Flash 的缓存命中价只有未命中价的五分之一,Pro 是十二分之一。
这意味着 DeepSeek 在用定价杠杆鼓励一种使用方式:把系统提示词、工具定义、文档模板等固定内容放在请求头部,让缓存机制自动生效,对于 Agent 类应用,这恰好是最典型的调用模式。
用 Flash 的白菜价铺量,用 Pro 的高阶能力撑住顶端场景,用缓存机制降低 Agent 开发者的边际成本。每一刀都切在应用层最痛的地方。
四、方向:Agent 底座
如果在 V4 的发布里只提炼一个关键标签,那么 Agent 比百万上下文或许更重要。
官方明确写道:V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了专项适配和优化,在 Agentic Coding 评测中达到开源模型最佳水平。这份适配名单同时包含 Anthropic 的产品和国产开发者工具。
这个信号很明确,DeepSeek 不打算自建应用生态,而是要成为 Agent 时代的底座供应商。
这个选择放在当前的行业格局里是一个有意识的取舍。Anthropic 的年化收入过去四个月从 90 亿美元翻到 300 亿美元,增量几乎全部来自 Claude Code;Cursor 一个代码编辑器估值已到 600 亿美元。应用层的钱在那里,但 DeepSeek 选择不去碰。
这说明它的定位不是下一个 Anthropic,更有可能是 Agent 时代的基础设施。
长上下文 + 低价 API+Agent 适配的组合,本质上是把自己做成一个供电站,让所有电器都能更便宜地跑起来。
对于那些整天跟 Token 消耗作斗争的 Agent 开发者来说,V4 打开的是一个具体的场景:把整个代码仓库、完整的需求文档、几百轮历史对话一次性塞进调用,不再需要切分、检索、摘要这套工程绕路。过去做 Agent 最头疼的就是上下文管理——每多一轮对话,token 就指数级堆叠,成本和稳定性同时恶化。
V4 如果能在真实负载下兑现承诺,这个痛点的成本结构将被改写一次。
五、生态:模型、算力赛跑
V4 延期的这段时间里,国产开源大模型的战场从未安静过。
今年农历年前后出现了一次密集爆发:阿里 Qwen3.5 总参数 3970 亿、激活仅 170 亿,百万 token 的 API 价低至 0.8 元,是 Gemini-3-Pro 的十八分之一;智谱 GLM-5 的代码生成的 HumanEval96.2% 打到开源最强。
4 月继续加速:Kimi K2.6 在 SWE-Bench Verified 上拿到 80.2%,几乎追平 Claude Opus 4.6;智谱 GLM-5.1 在 SWE-Bench Pro 上以 58.4% 超过了 GPT-5.4 和 Claude Opus 4.6;Qwen 3.6 Plus 也跨入百万 token 上下文行列。
Qwen、Kimi、GLM、MiniMax、MiMo,这些国产模型在国际开发者社区的出现频率正在肉眼可见地上升。

除了模型,算力侧的匹配也在同步落地。
华为在 V4 发布同日确认昇腾全系列产品——A2、A3 及最新的昇腾 950 已全面适配 V4-Flash 和 V4-Pro。
措辞是"双方芯模技术紧密协同",意味着 DeepSeek 和昇腾的适配工作从模型研发阶段就在同步推进。
华为给出了一组具体的性能数据:基于昇腾 950 超节点,V4-Pro 在 8K 输入场景下实现了约 20ms 的单 token 解码时延,单卡吞吐 4700 TPS;V4-Flash 可以做到约 10ms 时延,单卡吞吐 1600 TPS。
昇腾 A3 超节点上,V4-Flash 在 64 卡大规模部署下单卡吞吐超过 2000 TPS。
这些数字背后是昇腾 950 在底层架构上的三项代际升级:原生支持 FP8/MXFP4 等低精度格式(内存占用降低 50% 以上,算力翻倍)、针对 MoE 稀疏访存特征的硬件级优化,以及 Vector 与 Cube 单元共享片上内存的新设计。
更值得关注的是工程生态层面的动作。
华为同步开源了 PyPTO 编程范式,让 V4 新架构中涉及的 Attention 压缩、mHC 等复杂算子的开发周期从周级缩短到天级,开发者不需要手动处理硬件层面的同步和数据搬运。
寒武纪同样在发布当天宣布,已基于 vLLM 框架完成 V4-Flash 和 V4-Pro 的 Day 0 适配,代码开源到 GitHub。
两家国产芯片厂商在模型发布首日就拿出了完整的推理部署方案,这个响应速度本身就说明,适配工作不是临时赶出来的,而是跟模型研发深度咬合了很长时间。
DeepSeek 为这次底层算力迁移付出的工程代价不小。据此前报道,团队重写了大量核心代码,完成了从 CUDA 生态到昇腾 CANN 框架的整套技术栈迁移,这也是 V4 反复跳票的原因之一。
但当一个万亿参数级的开源旗舰模型,在发布首日就能跑在国产算力的全系列产品上,适配代码直接开源,推理性能给出了具体的吞吐和时延数据而不是"即将支持"——这件事的意义,已超出了任何单一模型的评测范畴。
无论模型还是算力,他们之间存在竞争关系,但从更大的维度看,它们都在证明了同一件事:
中国 AI 研发的系统性能力不是一两个特例,而是可以不断连续性创新的生态。
2025 年 1 月,DeepSeek R1 发布,引发美股单日市值蒸发超 1 万亿美元,被业界称为人工智能领域的 “斯普特尼克时刻”。
今天 V4 的发布没有那种戏剧性的震撼,但中国 AI 研发已经从 “偶尔令人震撼” 进入了 “持续在场” 阶段。
DeepSeek 在公告末尾引了《荀子》中的一句话:
不诱于誉,不恐于诽,率道而行,端然正己。
放在一家三次跳票、核心人才流失、刚传出融资的公司身上,这句话读起来有几分倔强。
但在整个国产开源模型群体站出来的 2026 年,这句话不只属于 DeepSeek,更属于中国所有 AI 创新坚定前行的脚步。
