发布日期:2026-05-25 19:42 点击次数:118

2026年的初夏,DeepSeek再度搅拌通盘AI行业的神经。
先是5月22日,彭博社报谈DeepSeek的融资范围已达到700亿元(约 100 亿好意思元,同期创举东谈主梁文锋明确向投资者表态:优先打破时期畛域,而非短期贸易化。
次日,DeepSeek官方告示V4-Pro API永恒降价至原价25%,V4 Pro 的输出价钱最终每百万token 0.87好意思元,顺利击穿全球大模子订价底线。
与此同期,这家公司的大动作束缚:旗舰模子V4开源仅月余,却迟迟未推对标竞品的编程订阅套餐;
传言已久的代码智能体团队 “Harness” 刚组建,才挖来量化天才崔添翼加盟;
更要害的是,从V4全面适配华为昇腾芯片、脱离英伟达CUDA生态,到合手续开源MoE架构、MLA把稳力机制等中枢时期,DeepSeek每一步都像是在 “反贸易知识”。
一边是近乎 “失掉” 的订价、百亿级融资的烧钱争议,一边是时期无保留开源、休止短期变现的执拗,外界的质疑声从未罢手:DeepSeek到底想干什么?梁文锋的棋局里,简直只消AGI设想,莫得赢利逻辑吗?
伸开剩余95%X博主@bookwormengr的万字长文梗概不错给出一个谜底。
DeepSeek是如何赢利的,而且是赚许多钱的?
以下为原文全文:
你有莫得想过,DeepSeek 到底揣摸打算若何赢利,而且是赚大钱?
他们莫得像智谱(GLM)、月之暗面(MoonShot)和 MiniMax 那样推出有竞争力的编程订阅经营。他们莫得多模态、语音或视频模子。时于当天,他们以致连一个 Harness 都莫得(自然最近传闻他们入手招东谈主作念了)。而且,DeepSeek 还永恒远程于于开源,乐此不疲地共享我方的“独家秘方”。这难谈是疯了吗?照旧隧谈在烧钱?那些正准备给他们投资 100 亿好意思元的投资东谈主们,难谈是在把钱往水里扔吗?
不,在我看来,刚巧相背!!!
在这里,我想聊聊我对他们于今一言一行的不雅察,以及他们似乎正在践行的政策。DeepSeek 创举东谈主梁文锋的观点彰着盯着一个大得多的终极奖杯——他们不仅我方能冲击 1 万亿好意思元的市值,还能趁机帮中国催生出一个高达 10 万亿好意思元的产业巨兽!
从头谛视 DeepSeek 的“铁汉之旅”
DeepSeek 老是顶风而行,他们不屑于去卷那种“比别东谈主好少量点”的微调模子,也不急着去卖当下的应用(比如多样编程套餐)。我在 2025 年 1 月 27 日发过一条疯传的推文,谈到了我所看到的快意,而当今的剧情正变得越来越精彩。
当群众都在死磕开阔模子(Dense Models,总共参数都参与运筹帷幄的传统大模子结构)时,DeepSeek 却逆水行舟,选定了极难磨砺的搀和众人模子(MoE, Mixture of Experts)。 他们从“第一性道理”(First Principles)登程,发明了全新的 GRPO 算法,取代了在强化学习(RL, Reinforcement Learning)中自然占据统率地位、但已毕成本极高的 PPO 算法。 他们摸索出了基于考证奖励的强化学习(RLVR, Reinforcement Learning from Verified Rewards),并将其作为提高模子推理能力的杀手锏。 他们通过“多 Token 预测”(MTP, Multi-Token Prediction)忽视了一种绝妙的投契解码(Speculative Decoding,一种通过预判后续单词来加快大模子生成速率的时期)策略,同期还让磨砺信号变得愈加密集。 他们竣工打造了“零气泡”(Zero-Bubble)活水线并行时期,把有限的 GPU 资源压榨到了极致。 他们开源了众人负载平衡器(Expert Load Balancer),让总共东谈主都能松驰部署搀和众人模子。特别是通过“宽众人并行”(Wide Expert Parallel)策略,模子不错在大都次下运行,使得服务成本大幅镌汰。 他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改把稳力机制的时期,极地面缩减了 KV 缓存(KV Cache,大模子推理时用于存储历史对话牵挂的显存空间)的需求,让运筹帷幄需求在濒临无尽拉长的陡立文时险些保合手恒定。 他们发明了 Engram(思绪模块),已毕了用内存换算力的神奇操作。 他们发明了 mHC(修正超献媚),处理了模子体量暴增时的磨砺踏实性穷苦。这个改变清单还能一直列下去……在铁汉之旅这个最经典的叙事结构里,主角一入手并不知谈我方的终极处事是什么。他是在沿途上摸爬滚打,逐步相识了伟大的天命,然后抹杀万难去完成它。在这个流程中,他会碰到无数的冷嘲热讽,但他选定无视;他会碰到慷慨解囊的敌手;他自身也有致命的瑕玷或短板——但他最终投诚了自我,达成了处事。他直面那些看似无法逾越的难关,却总能好意思妙地结好、瞩目地整合可贵的资源。这即是为什么不雅众会不自愿地为铁汉随风涟漪。这亦然为什么 DeepSeek 在赢得全球无数粉丝狂热追捧和尊敬的同期,也招来了不少争议。
接下来我将为你详确拆解,DeepSeek 在这条路上照旧走得富余远,况兼照旧窥见了他们的终极宿命:他们的形式根底不是卖什么编程订阅,而是去撬动一个价值 10 万亿好意思元的中国 AI 硬件生态圈,并以此义正辞严地让我方斩获 1 万亿好意思元的市值。在这个流程中,他们以致还会顺遂帮一把西方硬件生态中的一众新玩家。
宽饶群众商量与指正。
先来算一笔好玩的 KV 缓存账:
来望望着名半导体分析机构 @SemiAnalysis_发布的这条相配实时的推文:
咱们先来作念点深嗜的 KV 缓存数学题。别顾虑,若是你悔过数学,咱们也只是用最近发布的 KV 缓存运筹帷幄器,来望望 DeepSeek V4 Pro 到底能省下几许 KV 缓存,并把它跟最新的智谱 GLM 和阿里通义千问(Qwen)模子作念个对比。
我以 100 万(1M)陡立文长度为例进行运筹帷幄,假定 KV 精度为 8 位(8-bit),索引器精度为 16 位(16-bit)。你我方也不错去这个网站上玩玩:https://kvcache.ai/tools/kv-cache-calculator/
在 100 万陡立文深度下:
DeepSeek V4 竟然只需要 5.48 GB 的高带宽内存(HBM, High Bandwidth Memory,一种常用于顶尖 AI 显卡的高速显存)。 GLM5 需要 60 GB 的 HBM。 Qwen3-235B-A22B 则需要高达 89 GB 的显存!请把稳,这照旧在以下前提下:
DeepSeek 是一个领有 1.6 万亿(1.6T)参数的巨无霸模子。 GLM5 约莫是 7000 亿(700B)参数,而且它照旧鉴戒了 DeepSeek 的 MLA 和 DSA 时期,只是还没用上最新的压缩把稳力机制。 Qwen3-235B-A22B 只消 2350 亿参数,使用的是相对传统的 GQA(分组查询把稳力机制)。DeepSeek 在缓解显存压力方面作念出了奠基性的孝敬。若是这项改变被行业平凡继承,将让那些需要处理超长任务的长程 AI 智能体(Long-horizon Agents)成本低到难以置信,从而绝对解锁下一代清新的应用场景。
大肆背后的精密章法
能够在完全不殉难模子质地的前提下,把 KV 缓存压缩得如斯之小,恰是他们敢把万古缓存(Long-held Cache)价钱压到白菜价的底气地方——其价钱以致不到 Anthropic 旗下 Claude Sonnet 4.6 缓存射中价钱的 3%,而且他们还能帮你免费保留好几个小时!
关于长程任务来说,由于缓存体量极小,将其“转存”(Offloading)到固态硬盘(SSD)并在需要时从头加载,就变得极为合算。这就大大镌汰了对 HBM 的依赖。要知谈,HBM 目前全球严重短缺,而且从中国 AI 硬件产业的角度来看,这亦然制造难度极高的核肉痛点。更绝的是,DeepSeek 还成就了一套能从 SSD 中以极高速率从头加载 KV 缓存的时期,具体细节都在他们的论文里:https://arxiv.org/pdf/2602.21548
谁是这场“KV 缓存压缩战”的顺利受益者?谁在大宗供应 SSD?别忘了长江存储(YMTC)正在崛起为全球 3D NAND 闪存巨头。闪存时期(NAND)让 DeepSeek 能够顺利读取缓存,从而幸免了每次都从头运筹帷幄 KV 的巨大算力虚耗。反过来,DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比浩大的新阛阓——这不仅让长江存储受益,也让通盘产业链总共玩家随着大赚。
关连词,形式毫不单是局限于 NAND 和 SSD:
低功耗内存(LPDDR)相通蕴涵着巨大的后劲,不错用作存放模子权重(Weights)的“大后方”,并在需要时联翩而至地“流式传输”到 HBM 中,从而进一步减弱 HBM 的容量压力。你不错参考这篇博客:https://www.lmsys.org/blog/2025-09-25-gb200-part-2/。底下我用一张图来解释这套决策是如何运作的:
自然 DeepSeek 并莫得挑升针对这一决策作念特殊成就,但他们那领有浩大家人数目、况兼扶助 4 位(4-bit)权重的搀和众人模子架构,竣工契合了这套决策,使得其实施起来不费吹灰之力。
这种改变合作上他们那号称逆天的无损超紧凑 KV 缓存时期,让系统对 HBM 的蒙眬和容量需求出现了断崖式下落。
中国谁在作念 LPDDR?长鑫存储(CXMT)。目前他们在 LPDDR 的速率上仅过时海外顶尖水平半代,在容量密度上仅过时一代。差距相配小!这意味着在不久的畴昔,除了管够的 NAND 闪存,中国脉土生态还将迎来阵容汹汹的 LPDDR 内存。那这能缓解算力芯片的压力吗?谜底是:皆备能。请接着往下看……
贤达地玩转存储,还能顺遂给 GPU 和 ASIC 减负
兴致兴致很容易交融:用 NAND 闪存来存放 KV 缓存,不仅能延伸缓存的保存时候、减弱 HBM 的压力,还能免去重复运筹帷幄的苦闷,这等于变相给 GPU 和 ASIC(专用集成电路,即千般定制化 AI 算力芯片)的运筹帷幄单元松了绑。那么,除了作为模子权重的“即时流式传送带”以外,世界杯官方网页版LPDDR 还能以其他神气帮上忙吗?谜底相通是:不错。
LPDDR 不错用来存储海量的“Engram”(思绪模块)。DeepSeek 在他们的论文(https://arxiv.org/pdf/2601.07372)中指出,自然搀和众人模子架构不错通过条款运筹帷幄(Conditional Computation)来推行模子的容量,但传统的 Transformer 架构枯竭一种自然的知识检索机制,只可粗劣地通过崇高的“运筹帷幄”去模拟“检索”。为此,他们引入了 Engram 模块,将经典的 N-gram 镶嵌时期升级为基于哈希、时候复杂度为的片刻查找,创造了一个他们称之为“条款内存”(Conditional Memory)的全新寥落维度。这极地面省下了运筹帷幄量,但代价是需要巨大的内存空间来存放这个浩大的镶嵌表。这是一次经典的“用空间(存储)换时候(运筹帷幄)”,其高妙之处在于,读取“存储”的成本远比进行运筹帷幄要便宜得多(在 LPDDR 里查一下,可比让大模子整整跑一轮前向传播省钱太多了)。在大范围部署时,这是一笔合算到家了的买卖。这即是他们如何通过狂砸内存来省下算力的奥密!!!
这种弃取简直太值了:由于枯竭极紫外光刻机(EUV),无法在单个芯粒(Chiplet)上作念到同等的晶体管密度,中国的 GPU 和 ASIC 在隧谈的原始浮点运算能力(FLOPs)上,注定会永恒过时于西方顶尖显卡。同期,国内在先进封装时期上也处于追逐现象。因此,若是能诈欺国内产能充足、成本便宜的 NAND 和 LPDDR 内存来弥补算力的颓势,这种“裁长补短”的叮咛简直是绝配。
清点 DeepSeek 的一盘大棋:
纵不雅这些令东谈主头晕眼花的改变和他们作念出的各样抉择(于今不作念多模态、不作念语音模子,至于视频生成?那是什么东西?),DeepSeek 的狡计彰着不是目前那戋戋几亿好意思元的何足挂齿。他们正在极有耐性肠下一盘 10 万亿好意思元的大棋,目的是亲手扶合手起一套孤苦于西方以外的“备选硬件生态”。
这不仅让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军,更从根底上镌汰了大模子磨砺和推理的资源门槛。当运行 AI 模子的成本降下来后,原人道能稍逊的国产 GPU/ASIC 芯片以及相聚交换芯片也将全部造成“够用、好用”的切实选项。而且,这些开源改变也将反哺西方的开源社区,并给西方那些试图挑战英伟达的芯片初创企业带来一线但愿。
总共的蛛丝马迹都对上了。让咱们来逐个细数他们抛出的那些颤动行业的改变:
在 DeepSeek V2 中引入搀和众人模子(MoE)和 MLA:MoE 让磨砺一个非凡贤达的模子减少了 40% 到 50% 的算力虚耗;而多头潜在把稳力机制(MLA, Multi-head Latent Attention)更是把 KV 缓存顺利砍掉了 90%,使得将缓存转存到 SSD 变得极为高效。这些理念最早在他们 2024 年 5 月的论文(https://arxiv.org/pdf/2405.04434)中忽视。恰是凭借这些绝活,他们自后才能只是用 2048 张被阉割过的 H800 GPU,就硬生生磨砺出了比好意思顶级闭源模子的 DeepSeek V3。
DSA(密集跳跃把稳力机制):在论文(https://ariv.org/pdf/2512.02556)中推出,旨在削减长陡立文场景下的运筹帷幄量,同期缓解 HBM 的带宽压力。它确保了运筹帷幄量不会随着陡立文的拉长而发生爆炸式增长。望望底下的图表——DeepSeek-v3.2 的处理时候在陡立文拉万古依然安如泰山。
mHC(修正超献媚):在 2025 年 12 月的论文(https://arxiv.org/pdf/2512.24880)中初度亮相。mHC是 DeepSeek 在宏不雅架构上的一大改变,它绝对颠覆了大模子各层之间传统的信号传输神气。往时群众都在用自 ResNet 时期流传下来的循序残差献媚,而 mHC 则把这条残差流扩张成了多条并行的“信息高速公路”,并允许模子自主学习如何进行搀和。最为要害的是,它通过数学技能(将搀和矩阵通过 Sinkhorn-Knopp 投影拘谨在 Birkhoff 多胞形上)强制让这些搀和矩阵承诺双立时性,从而在数学上竣工确保了信号强度在穿过任意深度的相聚层时都不会衰减。
这绝对处理了此前困扰无拘谨超献媚(Hyper-Connections,最早由字节朝上发明)的不发放性不踏实穷苦——此前在 270 亿(27B)参数范围下,信号放大总共会大肆飙升到 3000 倍,导致通盘磨砺绝对崩盘。 而它的运筹帷幄成本却聊胜于无:由于它完全莫得改变把稳力层或前馈相聚(FFN, Feed-Forward Network)层的原始浮点运算量,只是改变了输出在各层之间的路由神气,因此它只加多了戋戋 6.7% 的履行磨砺时候支拨。 关连词它带来的性能提高却极为颤动:在同等模子大小和险些完全疏通的算力预算下,27B 范围的模子在 mHC 的加合手下,在复杂的 BIG-Bench Hard 推理测试中暴涨了 7.2 分,DROP 评测提高 3.2 分,GSM8K 数学测试提高 2.8 分,MMLU 详细学科知识提高 1.4 分。简而言之,mHC 通过给相聚赋予一套更丰富、更有推崇力的跨层信息路由拓扑结构,在险些不需要额外多花一丁点算力的情况下,让单元参数领路出了权贵更高的“才调”。
幸运彩app官方网站下载CSA 与 HSA:在 2026 年 4 月发布的 DeepSeek V4 Pro 时期文档(https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf)中亮相。它们通过对 KV Token 进行深度压缩,把原本就照旧很小的 KV 缓存需求又砍掉了 90%!同期大幅镌汰了所需的浮点运算量,一举帮 HBM 和 GPU/ASIC 绝对解套。
论文(https://arxiv.org/pdf/2601.07372)于 2026 年第一季度推出,正如前边所说,它在某种道理上已毕了“用内存(LPDDR)换算力”。底下的详确图表展示了在总体参数预算完全一致的情况下,Engram 带来的巨大性能跃升。
将运筹帷幄与通讯的类似压榨到极致:诸如“双旅途”(Dual Path)这样的底层魔改,名义上看是为了绕过硬件资源的阻塞而被动进行的闪转腾挪。但 DeepSeek 更进一步,以致入手反过来对芯片硬件厂商的 ASIC 架构遐想指破迷团,告诉他们如何遐想芯片才能幸免虚耗哪怕一点一毫可贵的硅片资源。以下截图恰是出自 DeepSeek V4 Pro 的官方文档:
对 TileLang 的重度进入:这明确无误地标明,他们的观点早已卓绝了自家算力紧缺的逆境,而是远程于于让通盘中国硬件生态具备与西方掰手腕的竞争力。有了 TileLang(一种用于编写高性能算力内核的开源编程话语),工程师只需要编写一次算力内核代码,就能在职何适配了 TileLang 后端的不同硬件平台上无缝跑起来。我预测国内其他 AI 实验室很快也会纷纷加入这个阵营——这将协力匡助中国硬件厂商从侧面突围,绕开英伟达坚不行摧的“CUDA 壁垒”(CUDA Moat,英伟达苦口孤诣数十年的专用并行运筹帷幄架构生态,是其最宽的护城河)。同期,这也能趁机自若 AMD 等西方的其他硬件厂商。注:国内许多 AI 硬件平台自身也提供 CUDA 兼容性或 CUDA 编译调度层。其中,摩尔线程、沐曦、壁仞和天数智芯是通过调度层已毕与 CUDA 兼容度最高的几家中国芯片公司,表面上它们不需要 TileLang 的协助。
大范围强化学习与自动化科学筹商:
随着运筹帷幄需求的断崖式下降,以及可供选定的原土硬件变得越来越多,DeepSeek 终于能够放开动作,去挑战那些此前让东谈主退缩三舍的弘大磨砺经营——尤其是强化学习阶段的后磨砺(Post-training)。强化学习需要生成海量的念念考轨迹(Trajectories),动辄就会产生数万亿的 Token,这在往时烧钱速率极其恐怖。此外,要磨砺出扶助 100 万陡立文的模子,你就必老生成相通长度的念念考轨迹。只消让模子在这种超长轨迹中继承历练,才能着实解锁处理复杂长程任务的能力。
不仅如斯,硬件选定的多元化将让 DeepSeek 领有富余的算力去冲击“自动化东谈主工智能筹商”(RSI, Research on Silicon Intelligence,即让 AI 充任科学家,我方遐想并实践算法实验的自主进化时期)。这种让 AI 操纵互搏、自主进化的模式陪同着大宗的试错,耗资非凡崇高。但若是想要绝对探寻通盘算法遐想的未知空间,RSI 是必经之路。在通往通用东谈主工智能(AGI)乃至超等东谈主工智能(ASI)的谈路上,DeepSeek 必须先点亮 RSI 这棵科技树。
DeepSeek 当天的试金石,行业翌日的教科书:
如今,DeepSeek 围绕搀和众人模子、MLA、DSA 的一连串大肆改变,早已被中国乃至全球的各大 AI 实验室奉为圭臬并争相抄功课。
比如,打造了 GLM 系列模子的智谱 AI 照旧用上了 MLA 和 DSA;月之暗面(Kimi)也大方承认自家的最新架构恰是基于 DeepSeek 的演进。作为有来有往,DeepSeek 在大范围磨砺中也选定了 Muon 优化器,而该优化器在超大范围磨砺中的威力,恰是被 Kimi 团队领先发掘并解释的。
(注:
搀和众人模子(MoE)架构最早由顶尖学者在 2017 年的经典论文( https://arxiv.org/pdf/1701.06538)中忽视,而 DeepSeek 的功劳在于胜仗将其推向了前所未有的浩大范围,并融入了大宗自研的独门绝技。* Muon(基于牛顿 - 舒尔茨动量正交化)优化器由机器学习筹商员 Keller Jordan 于 2024 年底发明,而 Kimi 团队则是全球第一个将其应用到超大范围模子磨砺中的吃螃蟹者。)说了这样多,那到底若何赚大钱呢?
咱们不错望望 OpenAI 一个相配深嗜的经典案例。OpenAI 曾与 AMD 以及 Cerebras(一家挑战英伟达的晶圆级超大芯片初创公司)达成契约:随着 OpenAI 采购并虚耗这两家公司的芯片达到特定里程碑,OpenAI 就能以极低的价钱获取这两家公司的股票认股权证(Warrants)或期权。这关于 AMD 和 Cerebras 来说是一笔双赢的绝妙交游——有了 OpenAI 这头团结算力的巨兽深度绑定,它们在长跑中胜出的概率大增。
凭证 AMD 官方发布的新闻稿(https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html):“作为契约的一部分,为了深度绑定两边的政策利益,AMD 已向 OpenAI 授予了高达 1.6 亿股 AMD 正常股的认股权证。这些股权将随着特定里程碑的达成而徐徐解锁。第一阶段将在运行部署达到 1 吉瓦(GW)算力中心时解锁,随后的份额将随着采购范围扩大至 6 吉瓦而链接解锁……”
我踊跃预测,DeepSeek 目前正在与国内一众存储、ASIC 算力芯片、CPU 以及相聚契约栈厂商签署类似的对赌与利益绑定契约。通过深度调节调优,DeepSeek 将匡助这些原土硬件在运行全球最顶尖的 AI 中枢处事负载时,着实作念到平替、以致卓绝西方硬件。
脚下,西方(包括其东亚盟友)总共 AI 宗旨股的总市值早已打破了 10 万亿好意思元。通过这种“用时期换股权、用生态扶合手分蛋糕”的精妙贸易模式,DeepSeek 不仅能在中国复制出一个相通体量惊东谈主的超等硬件产业,还能在其中切下最饶沃的一块蛋糕,进而将我方送入 1 万亿好意思元市值的超等俱乐部。
这不仅能让他们赚到比卖什么订阅软件多得多的真金白银,还能趁机已毕他们口中“让通用东谈主工智能惠及每一个东谈主”的宏伟愿景。梁文锋作为传奇量化巨匠詹姆斯·西蒙斯(Jim Simons)的铁杆粉丝,皆备是一位顶级贤达的老本族,他毫不行能漏掉这盘大棋!
只消你回极端把 DeepSeek 于今限度总共的反常举动串联起来,这即是唯独能竣工解释一切的底层逻辑……
发布于:北京市