2026 年 4 月,DeepSeek V4 发布:一场关于“算力效率”的静默革命
2026 年 4 月,DeepSeek 正式发布了 V4 版本。总参数高达 1.6T,激活参数 49B,首次将百万 token 上下**到了“标配”。Agent Coding 交付质量按内部评测,已经接近 Anthropic Claude Opus 4.6 的非思考模式。技术圈刷屏,朋友圈刷屏。
大众媒体的解读主要集中在三件事上:一是性能再上一档,对标海外头部模型;二是开源继续,国产替代再下一城;三是 API 限时优惠 5 月 5 日截止,缓存命中价格低到一杯咖啡都买不起。但这次 V4 发布,最值得注意的,或许不是上面这些,而是 DeepSeek 官方公告里的一行小字——“每 token 算力消耗仅为 V3.2 的 27%"。
27% 意味着什么?换个说法,新模型只用旧模型 27% 的算力,就能跑同样规模的 token。有人可能会说:“这有什么?不就是模型架构升级,效率提升一些吗?过去几代模型都在做这件事。”其实,不是的。上一代 V3.2 是 2025 年 9 月发布的,到 V4 只过了半年。在仅仅半年里,把每 token 的算力消耗砍掉 73%,幅度远高于行业平均。
更关键的是,DeepSeek 这次没有等英伟达 B200、H200 在国内放量,没有等更高级的进口算力到位,而是选择了一条几乎反方向的路:在现有的算力规模上,让模型自己学会“省”。这中间,到底发生了什么?
01 一个 token 的算力,到底是怎么花掉的?
要看懂“省了 73%"是什么概念,得先看懂一个 token 的算力是怎么花掉的。简单说,大模型推理的成本主要由两部分组成:第一,参数计算。模型有多少参数,每生成一个 token 就要“过”多少次参数。GPT-4 据传是 1.8T 参数,Claude 4 级别相近。DeepSeek V4 总参数 1.6T,但用了 MoE(混合专家)架构,每次只激活其中 49B——也就是说,1.6T 参数里有 1500B 左右“待机”,每个 token 只过 49B。
第二,KV 缓存。模型生成每个 token 都要“记住”前文,前文越长,需要缓存的数据越多。这部分缓存通常占用 GPU 显存最多,也是百万 token 长上下文的瓶颈所在。换一个生活场景。想象你给朋友讲一个长故事。讲到第 3 万字时,你需要回忆前面提过的人名、地点、时间、伏笔——这些就是"KV 缓存”。如果你能整理出一个简洁的“故事梗概 + 人物关系图”,把 30000 字压缩成 5000 字摘要,你的“工作内存”就轻了。
再换一个工作场景。你做一份 PPT,每翻一页都要回看前面的逻辑链。如果你只翻“标题页 + 关键图表页”就能记住整体节奏,你的效率会高得多。DeepSeek V4 做的,就是这件事。1.6T 参数 + 百万上下文,KV 缓存占用降到了 10%——把“故事梗概 + 关键页”做到了极致。
02 DeepSeek 为什么必须省,而不是必须快?
全球 AI 实验室都在做模型架构优化。但路径有两条。第一条是“做更聪明的模型”。OpenAI、Anthropic 走的是这条——参数更大、推理链更长、Agent 能力更强。前提是算力管够,至少能用上 H200/B200 级别的最新 GPU。第二条是“在现有算力上做更高效的模型”。DeepSeek 走的是这条——把每 token 的成本压到极低,让模型在已有的硬件上跑出最大产出。
这不是一道“哪条路更聪明”的题,而是“哪条路更现实”的题。过去两年,英伟达对中国市场的特供版从 H800、H20 一路降配,到 2026 年初才有限度地恢复部分供应。中国 AI 厂商面对的问题,不是“用最先进的算力做最强的模型”,而是“用受限的算力做最有用的模型”。
回到 DeepSeek。它的训练和推理,绝大多数跑在国产算力(华为昇腾系列)+ 少量 H800/H20 混合集群上。在这种条件下,“每 token 消耗减少 73%"翻译过来就是:同样的国产卡集群,可以跑 3 倍以上的请求量。这是用算法的进步,去补硬件的代差。
03 昇腾 950PR,能不能接得住?
5 月初,华为给了第二个动作。华为昇腾 950PR,基于中芯国际 7nm 工艺,单卡推理算力较英伟达对华特供版 H20 提升约 2.87 倍。采购价为 H200 的 1/3 至 1/4。阿里、字节、腾讯已下数十万颗订单。中国移动 2026-2027 年 AI 超节点采购 20.6 亿元,全线华为 CANN 生态。
华为徐直军 2025 年 9 月规划的产品序列依次是:950PR、950DT、960、970。950PR 负责推理 Prefill 阶段,950DT 针对训练优化。这两件事——DeepSeek 把每 token 算力压到 27%、华为把单卡算力翻到 H20 的 2.87 倍——放在一起,是一道很简单的乘法。
如果说 V3.2 时代每张 H20 卡只能服务 X 个并发请求,到 V4 时代 + 昇腾 950PR 时代,同样的卡数能服务的并发请求数变成了:X × (1/27%) × 2.87 ≈ 10.6X。一张卡的能力涨 2.87 倍,每 token 的成本降至 27%。叠加之后,原本"3 张 H200 才能服务的请求”,现在"1 张昇腾 950PR + DeepSeek V4"就能服务。代差被悄悄补回了一截。
04 有效算力 = 单卡硬件能力 × 算法效率
可带走资产:硬件代差 × 软件优化 = 有效算力。这个乘数公式是看懂中国 AI 产业过去三年和未来三年的钥匙。当硬件被卡脖子(左侧因子下降),算法的提升(右侧因子放大)可以部分补回;当算法到了极限(右侧因子收敛),硬件的释放(左侧因子放大)就成了下一阶段的关键。一头被压住,可以靠另一头补;两头同时打开,就是产业拐点。
这个乘数模型,可以解释过去三年中国 AI 产业的几乎所有大事件。一是 2024 年初 DeepSeek V2 发布。当时英伟达对华制裁刚刚收紧,左侧因子(单卡能力)被压低。DeepSeek 用 MoE+ 架构创新拉高右侧因子(算法效率),有效算力得到部分补偿。二是 2024 年底 DeepSeek V3 发布震动硅谷。同一规模的训练成本只有同行约 1/10,本质上是右侧因子(算法效率)的另一次跳跃。三是 2026 年 4 月 V4 发布 + 昇腾 950PR 路线图明确。两边因子同时打开——算法效率再降 73%(V4),单卡能力涨到 H20 的 2.87 倍(950PR)——一道乘法把“有效算力”拉到一个新台阶。
05 这个公式,怎么用在你不太熟的地方?
这个乘数公式不只是讲 AI 的。换一个最普通的家用场景。你在租房,月租 3000 元(硬件预算被卡)。但你愿意花两个周末把家里收纳系统重做一遍——把杂物分门别类、把垂直空间用满、把不常用的东西归到储物间——结果是同样 3000 元的房子,住起来体验有 6000 元的水平。这就是“每平米实用面积”的算法优化。
再换一个工作场景。你的团队预算有限,无法增加 2 个工程师(硬件被卡)。但你引入了 AI 辅助代码评审、把重复劳动自动化、让每个工程师从一周写 3 个 feature 变成一周写 7 个 feature——同样 5 个人的团队,产出是 10 个人的。这就是“每个工位的有效产出”的算法优化。回到 DeepSeek。华为昇腾 950PR 单卡能力是 H20 的 2.87 倍,但仍然不及 H200。中国 AI 实验室没法等“和 H200 一样的卡”放进国产服务器,那是 2027-2028 年的事。怎么办?把 V3.2 的算力消耗砍到 27%,让同样的卡多干 3 倍的活。这是一道完全相同的题。
06 为什么这是“通关券”,不只是“省钱”?
如果只是“省钱”,DeepSeek V4 也就是一次寻常的产品迭代。但“省 73%"在 2026 年这个时间点,意义远不止省钱。OpenRouter 公开数据显示,2026 年 3 月 30 日至 4 月 5 日的一周,中国 AI 模型的总调用量达到 12.96 万亿 token,是美国同期的 4.3 倍。这个数字第一次出现时,硅谷许多人不相信。但只要把“有效算力 = 单卡硬件能力 × 算法效率”这个公式套进去,就能解释——美国靠左侧因子(最强 GPU)跑出大基数,中国靠右侧因子(最优化的算法 + 开源生态)拉出大乘数。
两条路径汇合,就形成了“调用量上中国是美国 4.3 倍”的奇观。对开发者而言,DeepSeek API 限时优惠的价格已经让“做应用”的门槛降到极低——Pro 2.5 折,Flash 缓存命中 0.02 元/百万 tokens。这意味着任何一个独立开发者,可以在一个咖啡的钱里,跑出一个完整的应用 Demo。对企业而言,“昇腾 950PR + V4"组合让“私有化部署一个大模型”从“采购 3000 万一套”降到“采购 1000 万一套”。中型企业第一次有能力把大模型部署在自己的机房里。
07 你以为的“国产替代”,可能是个误会
讲到这里,需要纠正一个常见的理解。许多读者把"DeepSeek+ 昇腾”理解为“国产替代英伟达 +OpenAI"。但这个表达,可能稀释了真正发生的事情。真正的事情是:中国 AI 找到了一条不必跟着英伟达走的路。过去十年,全球 AI 产业的算力霸权由英伟达定义。“想做更大的模型,就要更多的 H100/H200"是默认前提。所有国家、所有公司都在这条路上跑。
“算法补硬件”不是替代,而是绕开。用更高效的算法 + 开源生态 + 受限但够用的硬件,跑出和“无限堆卡”路线相近的产业产出。这条路的价值不在于“我们也有 H200",而在于“我们不需要等 H200 才能往前走”。它的代价是中国 AI 实验室必须比美国同行做得更聪明、更精细。它的红利是中国可以在被卡脖子的环境里,仍然做出全球级别的产品。
08 产业链的真实位置:昇腾、CANN、A 股
这条路径上的产业链,正在被重新定价。4 月 27 日 A 股半导体板块爆发:覆铜板指数 +5.82%、半导体设备 +5.68%、GPU+3.91%。芯源微 +17.81%、富创精密 +16.03%、长川科技 +10.77%。这一轮上涨的逻辑,正是市场对“国产算力放量 + 下游模型放量”双向定价的反应。华为 Atlas 950 SuperPoD(8192 张 950 昇腾加速卡)将于 2026 年 Q4 上市。和英伟达 NVL144 对照——卡规模 56.8 倍、总算力 6.7 倍、内存容量 15 倍——这是“超节点”级别的算力堆叠。
中国信通院已启动 DeepSeek-V4 国产化适配测试。这个测试的结果,会直接影响到“昇腾+DeepSeek"组合在 2026 年下半年的政企招标中的渗透率。Bernstein 预测,2026 年华为昇腾为首的国产 AI 芯片市占率有望首次超过 50%。这是一个“硬件代差被算法部分补回”之后的结果。
09 最后的话
我做完这次研究,有这么几条收获,供你参考。一,硬件代差不是世界末日。任何一项硬件被卡的产业,都可以用“算法/工艺/流程”上的进步去部分补偿。补偿的代价是必须做得更聪明,红利是不依赖外部供给。二,AI 产业的护城河不是“最强模型”,是“硬件×算法的乘数”。当你看一家 AI 公司是否有长期价值,不要只看它的模型在某个榜单上是第几名,要看它在“既定硬件条件”下的有效算力是多少。
三,开源生态在算力受限的环境里,比闭源生态更有价值。DeepSeek 之所以能成为这一轮中国 AI 的代表,不仅是因为它的模型好,更因为它把模型开源出来,让整个生态的“右侧因子”被反复推高。当然,现实没有这么简单。“每 token 降到 27%"是模型在内部测试的数据,实际部署中受任务类型、缓存命中率、并发量影响,差异会很大。“昇腾 950PR 的 2.87 倍”是单卡推理算力,训练侧的差距仍在。中国 AI 追赶英伟达和 OpenAI 的路,不会是一条直线。
V4 比 V3.2 节省 73% 算力——这看起来是技术细节,实际上是中国 AI 拿到的最重要的一张通关券。但有一件事是清楚的:当一个产业被告知“用最差的硬件做最好的产品”时,能做到的国家不多。中国是其中一个。DeepSeek 官方公告里的那行小字,藏着的就是这件事。
免责声明
本文仅为信息分享与行业分析,不构成任何投资建议、投资分析意见或交易邀约。市场有风险,投资需谨慎。任何人依据本文内容作出的投资决策,风险与盈亏自行承担,作者及发布平台不承担任何法律责任。
