月暗与DeepSeek的“听牌”时刻

2023年初，关于“谁是中国最有技术理想的人”这个问题，十个投资人中大概有一半的回答是“Kimi（杨植麟）”。

彼时，杨植麟所创建的月之暗面（以下简称“月暗”），跟他本人一样神秘且不按常理出牌。在国内大模型逐渐沦为“卷参数”的重灾区时，成立半年的月暗开了第一场发布会，侃侃而谈的主题是“长文本”，瞄准的方向是C端超级应用。

月暗与DeepSeek的第一次“撞车”，发生在2025年春节前夕。同一天，间隔不到两个小时，DeepSeek发布了R1，月暗发布了Kimi k1.5。尽管两家模型在训练思路上有相似之处，但DeepSeek-R1凭借着模型放量、性能和开源，火遍了全球。

R1火了，全世界的人都开始打听，DeepSeek背后的梁文锋是何许人也。《暗涌》2023年的一篇报道被翻了出来，在里面梁文锋提到了“研究”“探索”“不求商业回报”等话题。“中国最有技术理想”的标签，由此被贴到了梁文锋身上。

早期有投资人总结，月暗和DeepSeek两家公司的相同点：灵魂人物、一流的技术团队和鼓励创新文化。

就在不久前，月暗面截胡了V4，先一步发布并开源了新模型K2.6。

紧接着传出了DeepSeek寻求融资的消息，腾讯和阿里巴巴正就投资事宜展开洽谈，而这两家也是月暗的股东。

据有关人士透露，DeepSeek将以月暗作为部分估值参照基准。目前月暗的估值在180亿美元，正在寻求上市。有消息称，DeepSeek的目标估值已从最初的至少100亿美元上调至超200亿美元，超过了月暗。

牌局未散，筹码未凉。月暗与DeepSeek的故事，像极了麻将桌上的高手对垒。彼此盯着对方的牌，却又各自按自己的牌型摸打。

而麻将的魅力正在于此，不到最后一张牌翻开，谁也不知道谁会“点炮”，谁会“自摸”。

登月的“背面”

去年底，杨植麟对内展现出，公司发展健康，账上资金相对充盈，不着急上市的坦然。

仅过去三个月，情况迎来180度转弯，月之暗面被爆出“考虑赴港进行首次公开招股”的消息。

这一切实际有迹可循，据光子星球了解，去年的月暗内部弥漫着焦虑的情绪。一方面是来自竞争对手的压力，面对智谱和MiniMax接连上市，部门员工难免士气低落，因为很多人觉得大模型的窗口期很短，上市的机会稍纵即逝。

另一方面则体现在商业化上，月暗手握的资金、人才在国内属于第一梯队，但核心产品只有Kimi助手。这导致其收入来源极其有限，免费用户占绝大多数，付费订阅转化率低，API调用量远不如专注于B端的公司。

有业内人士告诉我们，因为此前的误判，月暗卷入了与大厂的竞争中，结果是在国内没有打过豆包，同时又错过了海外市场开拓时间点。

“海外相对还是充分竞争的市场，不仅仅有GPT和Gemini，如果有大量全球客户愿意为国产大模型买单，仍是有很大的市场。在进一步打开市场的前提下，大模型和应用的研发才能走向正向循环”。该业内人士表示，目前有效出海的领域是AI视频领域，类似于一些创业公司体量虽小，却仍可与大厂抗衡。

DeepSeek R1给行业敲响了警钟，包括月暗。

技术战略上聚焦Agent方向，Agent赛道所需要具备的长上下文记忆、任务拆解与规划、底层模型推理能力，恰好与其技术储备相吻合。

按杨植麟所说，Kimi K2.5以后进化逻辑，按照Token效率、长上下文以及智能体集群，三个维度的协同推进。他判断，未来智能发展方向将从单智能体向动态生成的集群进化，这也为K2.6埋下了伏笔。

尽管Kimi助手还可以免费使用，但对高价值用户筛选极其明显。有很多用户反映，在未充值会员的情况下，正常使用Kimi的速度明显变慢，还经常遇到高峰算力不足的问题。事实上，这本身就是月暗的策略之一，在有限算力的情况下瞄准能带来付费转化的生产力用户。

这种策略加速了Kimi商业化模型走向闭合。早期，Kimi没有完全开放收费，仅推出了打赏功能，本质是高峰期优先使用权，更像是一种对免费用户的流量调节手段，而非真正的产品分层。

去年9月，随着“OK Computer”功能推出，转为49、99和199元/月三档会员，开始将深度研究、K2 Turbo、长思考等能力打包，初步尝试按能力付费。

现在，其会员订阅进一步细分为四档，价格带大幅拉长，最高档接近700元/月，远超此前199元的上限，新增的高阶权益明显指向专业用户和企业级场景。

其定价逻辑不再基于能否使用，而是基于，用户能调动多少Agent、访问什么级别数据库、获得多少并行能力。这标志着Kimi彻底放弃了与豆包等C端产品的流量竞争，转而深耕专业生产力市场，试图从高价值用户的付费中获取可持续收入。

K2.6是分水岭

总体来看，此次K2.6的更新，对Agent“动手”能力的增强，大于对“大脑”智力的加强。

K2.6的能力在搜索型Agent、长链路编码、工具协作这些需要执行与检索的任务上，已经达到和GPT‑5.4、Claude Opus 4.6同一水平线；但在纯推理、纯数学，这类更依赖内部思维链与抽象逻辑的任务上，还有一些差距。

技术报告里展现了三项K2.6的核心能力。一是长程编码能力，能够连续编码13小时，编写或修改超过4000行代码，堪称“编码劳模”。官方实测中，用较为冷门Zig语言重构AI模型推理，将速度从15 tokens/s提升至193 tokens/s。这是典型的“以执行代推理”的优势体现。

二是从单兵到军团的Agent集群能力，这是增强“手”能力的集中体现。K2.6支持的Agent集群架构，能调动高达300个子Agent并行工作，完成4000个协作步骤。相比上一代，任务完成度和交付质量都有提升。

三是Agent的自主执行能力，模型能在主动式Agent框架，如OpenClaw，中持续自主运行长达5天。这意味着它能作为7x24小时的后台“数字员工”，处理复杂任务。

此次以K2.6为标志的更新，清晰地揭示了月之暗面一次重大的战略转向：从“信息容器”彻底转向“执行引擎”，从追求对话智能，全面押注于能直接交付结果的Agentic智能。

回顾Kimi的一路来的升级，经历了3个阶段。

早期的Kimi聚焦超长文本和对话，就像一个知识渊博的图书管理员，你问什么，他告诉你在哪本书的哪一页。这是一个信息容器，用户把大量信息倒进去，Kimi负责理解、检索、总结。它不改变外部世界，只改变用户对信息的获取效率。

第2阶段，也就是K2、K2.5时期，核心是增强代码生成、数学推理、复杂指令遵循等能力。此时的模型从“读”走向“算”，就像一个聪明的实习生，他能根据需求写出可运行的代码，但需要你检查、部署和整合。这背后，是模型开始具备工作记忆与链式思考能力，不再只是被动回答问题，而是能主动规划多步骤的思维过程。

第3阶段，也就是现在的K2.6，走向了多Agent协同执行。核心是将一个复杂任务拆解为多个子任务，调度不同的“技能Agent”并行执行，最后整合交付完整成果。K2.6从一个大脑变成了“一个项目经理+一支数字员工团队”。

正是因为智能带来的生产力提升，带来了月暗商业模式的转变，从对功能收费转变为执行任务、成果交付的收费。对月暗来说，K2.6的商业价值高于技术价值。

这是一道分水岭，是Kimi从“信息容器”迈向“执行引擎”的拐点，也是Agent能承担复杂工作的量产证明。

月之暗面官方在开篇引用了Linux之父的一句经典名言，“Talk is cheap. Show me the code”。或许，还应该补上一句“Only results matter.”

V4狭路相逢

狼来了的故事终于有了结尾，DeepSeek-V4预览版在K2.6之后，姗姗来迟。

根据官方信息，V4版本的更新核心是“普惠”。通过技术创新，让顶尖的Agent能力、百万级超长上下文和极致的推理性能，以更低的成本被每个人和企业方便地使用。

V4在成本效率上做出了极致优化。采用MoE架构，总参数达到1.6万亿，但每次推理仅激活约490亿参数，既保证了性能，又控制了成本。上下文窗口从前代的128K扩展至100万Token，接近10倍的量级提升。同时，实现了在100万Token长度下的97%信息召回率。

V4最具冲击力的，可能不是其技术参数，而是在商业模式上对现有闭源巨头的挑战。

DeepSeek-V4的采取双版本定价策略，一端是面向个人开发者的V4-Flash，每百万tokens输入是0.2元，输出是2元；V4-Pro每百万tokens输入是1元，输出是12元。粗略估算，以OpenAI和Anthropic当前最强的旗舰模型为基准，其价格大约是V4-Pro的16-25倍。

Deepseek表示，受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格还会大幅下调。

关键是，V4-Pro并非廉价替代品。其在Agentic Coding评测中已达开源最佳，其使用体验优于Sonnet 4.5，交付质量接近Claude Opus 4.6的非思考模式。

同样是Agent，DeepSeek V4与Kimi K2.6的本质区别，在于它们优化Agent能力视角截然不同：一种是微观智能驱动力，一种是宏观集群执行力。

DeepSeek的内在哲学是模型即Agent，侧重于单兵为王，通过提升模型自身的智能与效率，使单个Agent能力最大化。V4假设单个模型的能力做到天花板，那么基于其构建的Agent自然就是最强的，用户不需要复杂的集群调度，一个Agent就能完成大多数任务。

Kimi K2.6则更偏重于Agent即系统，将Agent拧成一股绳，核心能力源于多Agent Swarm集群的协同能力。K2.6认为现实中的复杂任务，靠一个Agent串行完成太慢、太容易出错。不如拆成几百个小任务，让上百个Agent并行一起做，最后汇总。即使每个Agent的智商不是顶尖，团队协作的效率也远超单兵。

这两种路线并非对立，而是互相补充。前者拼智商，后者拼协作。前者是深度，后者是广度。因为一个理想的Agent系统，可以用DeepSeek V4作为子Agent的“大脑”，再用Kimi的集群框架将这些子Agent组织起来。

从种种迹象来看，DeepSeek正在向资本和商业化靠拢，而且无法避免地将月暗拉进了这场风暴。