月暗与DeepSeek的“听牌”时刻


2023年初,关于“谁是中国最有技术理想的人”这个问题,十个投资人中大概有一半的回答是“Kimi(杨植麟)”。

彼时,杨植麟所创建的月之暗面(以下简称“月暗”),跟他本人一样神秘且不按常理出牌。在国内大模型逐渐沦为“卷参数”的重灾区时,成立半年的月暗开了第一场发布会,侃侃而谈的主题是“长文本”,瞄准的方向是C端超级应用。

月暗与DeepSeek的第一次“撞车”,发生在2025年春节前夕。同一天,间隔不到两个小时,DeepSeek发布了R1,月暗发布了Kimi k1.5。尽管两家模型在训练思路上有相似之处,但DeepSeek-R1凭借着模型放量、性能和开源,火遍了全球。

R1火了,全世界的人都开始打听,DeepSeek背后的梁文锋是何许人也。《暗涌》2023年的一篇报道被翻了出来,在里面梁文锋提到了“研究”“探索”“不求商业回报”等话题。“中国最有技术理想”的标签,由此被贴到了梁文锋身上。

早期有投资人总结,月暗和DeepSeek两家公司的相同点:灵魂人物、一流的技术团队和鼓励创新文化。

就在不久前,月暗面截胡了V4,先一步发布并开源了新模型K2.6。

紧接着传出了DeepSeek寻求融资的消息,腾讯和阿里巴巴正就投资事宜展开洽谈,而这两家也是月暗的股东。

据有关人士透露,DeepSeek将以月暗作为部分估值参照基准。目前月暗的估值在180亿美元,正在寻求上市。有消息称,DeepSeek的目标估值已从最初的至少100亿美元上调至超200亿美元,超过了月暗。

牌局未散,筹码未凉。月暗与DeepSeek的故事,像极了麻将桌上的高手对垒。彼此盯着对方的牌,却又各自按自己的牌型摸打。

而麻将的魅力正在于此,不到最后一张牌翻开,谁也不知道谁会“点炮”,谁会“自摸”。

登月的“背面”

去年底,杨植麟对内展现出,公司发展健康,账上资金相对充盈,不着急上市的坦然。

仅过去三个月,情况迎来180度转弯,月之暗面被爆出“考虑赴港进行首次公开招股”的消息。

这一切实际有迹可循,据光子星球了解,去年的月暗内部弥漫着焦虑的情绪。一方面是来自竞争对手的压力,面对智谱和MiniMax接连上市,部门员工难免士气低落,因为很多人觉得大模型的窗口期很短,上市的机会稍纵即逝。

另一方面则体现在商业化上,月暗手握的资金、人才在国内属于第一梯队,但核心产品只有Kimi助手。这导致其收入来源极其有限,免费用户占绝大多数,付费订阅转化率低,API调用量远不如专注于B端的公司。

有业内人士告诉我们,因为此前的误判,月暗卷入了与大厂的竞争中,结果是在国内没有打过豆包,同时又错过了海外市场开拓时间点。

“海外相对还是充分竞争的市场,不仅仅有GPT和Gemini,如果有大量全球客户愿意为国产大模型买单,仍是有很大的市场。在进一步打开市场的前提下,大模型和应用的研发才能走向正向循环”。该业内人士表示,目前有效出海的领域是AI视频领域,类似于一些创业公司体量虽小,却仍可与大厂抗衡。

DeepSeek R1给行业敲响了警钟,包括月暗。

技术战略上聚焦Agent方向,Agent赛道所需要具备的长上下文记忆、任务拆解与规划、底层模型推理能力,恰好与其技术储备相吻合。

按杨植麟所说,Kimi K2.5以后进化逻辑,按照Token效率、长上下文以及智能体集群,三个维度的协同推进。他判断,未来智能发展方向将从单智能体向动态生成的集群进化,这也为K2.6埋下了伏笔。

尽管Kimi助手还可以免费使用,但对高价值用户筛选极其明显。有很多用户反映,在未充值会员的情况下,正常使用Kimi的速度明显变慢,还经常遇到高峰算力不足的问题。事实上,这本身就是月暗的策略之一,在有限算力的情况下瞄准能带来付费转化的生产力用户。

这种策略加速了Kimi商业化模型走向闭合。早期,Kimi没有完全开放收费,仅推出了打赏功能,本质是高峰期优先使用权,更像是一种对免费用户的流量调节手段,而非真正的产品分层。

去年9月,随着“OK Computer”功能推出,转为49、99和199元/月三档会员,开始将深度研究、K2 Turbo、长思考等能力打包,初步尝试按能力付费。

现在,其会员订阅进一步细分为四档,价格带大幅拉长,最高档接近700元/月,远超此前199元的上限,新增的高阶权益明显指向专业用户和企业级场景。

其定价逻辑不再基于能否使用,而是基于,用户能调动多少Agent、访问什么级别数据库、获得多少并行能力。这标志着Kimi彻底放弃了与豆包等C端产品的流量竞争,转而深耕专业生产力市场,试图从高价值用户的付费中获取可持续收入。

K2.6是分水岭

总体来看,此次K2.6的更新,对Agent“动手”能力的增强,大于对“大脑”智力的加强。

K2.6的能力在搜索型Agent、长链路编码、工具协作这些需要执行与检索的任务上,已经达到和GPT‑5.4、Claude Opus 4.6同一水平线;但在纯推理、纯数学,这类更依赖内部思维链与抽象逻辑的任务上,还有一些差距。

技术报告里展现了三项K2.6的核心能力。一是长程编码能力,能够连续编码13小时,编写或修改超过4000行代码,堪称“编码劳模”。官方实测中,用较为冷门Zig语言重构AI模型推理,将速度从15 tokens/s提升至193 tokens/s。这是典型的“以执行代推理”的优势体现。

二是从单兵到军团的Agent集群能力,这是增强“手”能力的集中体现。K2.6支持的Agent集群架构,能调动高达300个子Agent并行工作,完成4000个协作步骤。相比上一代,任务完成度和交付质量都有提升。

三是Agent的自主执行能力,模型能在主动式Agent框架,如OpenClaw,中持续自主运行长达5天。这意味着它能作为7x24小时的后台“数字员工”,处理复杂任务。

此次以K2.6为标志的更新,清晰地揭示了月之暗面一次重大的战略转向:从“信息容器”彻底转向“执行引擎”,从追求对话智能,全面押注于能直接交付结果的Agentic智能。

回顾Kimi的一路来的升级,经历了3个阶段。

早期的Kimi聚焦超长文本和对话,就像一个知识渊博的图书管理员,你问什么,他告诉你在哪本书的哪一页。这是一个信息容器,用户把大量信息倒进去,Kimi负责理解、检索、总结。它不改变外部世界,只改变用户对信息的获取效率。

第2阶段,也就是K2、K2.5时期,核心是增强代码生成、数学推理、复杂指令遵循等能力。此时的模型从“读”走向“算”,就像一个聪明的实习生,他能根据需求写出可运行的代码,但需要你检查、部署和整合。这背后,是模型开始具备工作记忆与链式思考能力,不再只是被动回答问题,而是能主动规划多步骤的思维过程。

第3阶段,也就是现在的K2.6,走向了多Agent协同执行。核心是将一个复杂任务拆解为多个子任务,调度不同的“技能Agent”并行执行,最后整合交付完整成果。K2.6从一个大脑变成了“一个项目经理+一支数字员工团队”。

正是因为智能带来的生产力提升,带来了月暗商业模式的转变,从对功能收费转变为执行任务、成果交付的收费。对月暗来说,K2.6的商业价值高于技术价值。

这是一道分水岭,是Kimi从“信息容器”迈向“执行引擎”的拐点,也是Agent能承担复杂工作的量产证明。

月之暗面官方在开篇引用了Linux之父的一句经典名言,“Talk is cheap. Show me the code”。或许,还应该补上一句“Only results matter.”

V4狭路相逢

狼来了的故事终于有了结尾,DeepSeek-V4预览版在K2.6之后,姗姗来迟。

根据官方信息,V4版本的更新核心是“普惠”。通过技术创新,让顶尖的Agent能力、百万级超长上下文和极致的推理性能,以更低的成本被每个人和企业方便地使用。

V4在成本效率上做出了极致优化。采用MoE架构,总参数达到1.6万亿,但每次推理仅激活约490亿参数,既保证了性能,又控制了成本。上下文窗口从前代的128K扩展至100万Token,接近10倍的量级提升。同时,实现了在100万Token长度下的97%信息召回率。

V4最具冲击力的,可能不是其技术参数,而是在商业模式上对现有闭源巨头的挑战。

DeepSeek-V4的采取双版本定价策略,一端是面向个人开发者的V4-Flash,每百万tokens输入是0.2元,输出是2元;V4-Pro每百万tokens输入是1元,输出是12元。粗略估算,以OpenAI和Anthropic当前最强的旗舰模型为基准,其价格大约是V4-Pro的16-25倍。

Deepseek表示,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格还会大幅下调。

关键是,V4-Pro并非廉价替代品。其在Agentic Coding评测中已达开源最佳,其使用体验优于Sonnet 4.5,交付质量接近Claude Opus 4.6的非思考模式。

同样是Agent,DeepSeek V4与Kimi K2.6的本质区别,在于它们优化Agent能力视角截然不同:一种是微观智能驱动力,一种是宏观集群执行力。

DeepSeek的内在哲学是模型即Agent,侧重于单兵为王,通过提升模型自身的智能与效率,使单个Agent能力最大化。V4假设单个模型的能力做到天花板,那么基于其构建的Agent自然就是最强的,用户不需要复杂的集群调度,一个Agent就能完成大多数任务。

Kimi K2.6则更偏重于Agent即系统,将Agent拧成一股绳,核心能力源于多Agent Swarm集群的协同能力。K2.6认为现实中的复杂任务,靠一个Agent串行完成太慢、太容易出错。不如拆成几百个小任务,让上百个Agent并行一起做,最后汇总。即使每个Agent的智商不是顶尖,团队协作的效率也远超单兵。

这两种路线并非对立,而是互相补充。前者拼智商,后者拼协作。前者是深度,后者是广度。因为一个理想的Agent系统,可以用DeepSeek V4作为子Agent的“大脑”,再用Kimi的集群框架将这些子Agent组织起来。

从种种迹象来看,DeepSeek正在向资本和商业化靠拢,而且无法避免地将月暗拉进了这场风暴。

智谱与MiniMax已经上市,从团队基因、技术能力、融资能力等多个因素综合考虑,月暗成为了DeepSeek锚定估值的最佳标的。

目前,月暗的核心叙事是“长上下文本+Agent集群智能”,以此支撑起180亿美元的估值。DeepSeek此时以200亿美元甚至更高的目标估值去参照月暗,直接挑战了其估值的合理性。

投资者天然会进行同类比较,更何况月暗与DeepSeek本来就有相似的地方。当月暗从唯一的选择变成了可替代的选项之一,估值逻辑就从稀缺性溢价,就切换为可替代性折价。

DeepSeek这局牌打得极凶,技术一把梭哈,定价直接“截胡”,估值有机会反超月暗。

可它的软肋也很明显,开源是把双刃剑,容易养大了对手饿死了自己。其长期以AI实验室自居,以研究为导向,无法保证更新频率的稳定性。V3版本发布于2024年12月,V4版本频频跳票,市场等得心焦。

因为坚持开源,DeepSeek难以通过模型授权收费,收入来源现在只有微薄的API调取费用。商业模式尚未建立,仍要面临算力、人才争夺和基建建设等高昂的成本支出。

月暗虽被“截胡”,却还攥着几张暗牌,比如Agent集群的工程成熟度、垂直行业的深耕、初步有成效的Agent商业模式,这些DeepSeek短期难以超越。

谁能把手里的牌打成“自摸”,看的不是谁嗓门大,而是谁能在商业化这张牌桌上,把技术真正换成筹码。

DeepSeek摸到了“听牌”的资格,月暗也还有“改听”的机会。只是这张牌桌,从此再无轻松的牌可打。

本文来自微信公众号“guangzi0088”(ID:TMTweb),作者:郝鑫,编辑:吴先之。


太意外,超级AI横空出世,华尔街集体慌了

36氪首发 | 核心团队来自微软,获近亿投资,要打通AI进厂最后一公里

评 论