算力的新因果：AI Agent时代，被重估的CPU价值与新机遇

人工智能正在经历一场静默而深刻的范式转移——从“回答问题”的大模型（LLM），迈向能“自主行动”的智能体（Agent）。这一转变不仅改变了AI的能力边界，也正在重塑底层算力的供需格局。在这场变革中，一个长期被视为“基础设施底座”的“关键先生”正在被重新定义——它并非风光无限的GPU，而是始终支撑数据中心运行的CPU。这不是一次简单的周期轮动，而是一场由工作负载特性驱动的、对CPU核心价值的深度回归与重估。

在东方智慧中，“因缘果业”揭示了万物生起的深层逻辑：“因”为种子，“缘”为条件，“果”为显现，“业”为延续之势。无因则果不生，有因无缘亦不成；一旦因缘和合，其果必然显现，并进一步化为新业，推动未来之变。今日AI Agent的演进，恰如这一古老法则的现代回响。

因——认知的偏差：

CPU为何曾看似“失焦”？

要理解CPU为何能再次站到“C位”，首先要澄清一个误区：CPU从未不重要。在传统的云计算和数据中心架构中，CPU始终是绝对的核心。无论是虚拟化技术的实现、容器编排、网络流量转发，还是数据库与中间件的运行，无一不依赖CPU强大的计算与调度能力，高性能CPU是现代云计算体系大厦的地基。

然而，在过往若干年的AI时代，大语言模型（LLM）的成功几乎完全建立在大规模并行矩阵运算之上。在这一计算范式下，无论是训练还是推理，核心任务都是对海量矩阵进行运算——这正是GPU的绝对强项。而CPU则退居幕后，负责数据预处理、任务调度与结果后处理等调度性工作！但看似退居幕后的CPU，实则扮演着“总指挥”的关键角色。

受此范式驱动，资本市场对GPU创业公司掀起空前追捧，到了2025年底，摩尔线程、沐曦、壁仞、天数智芯等GPU企业引发一轮上市热潮，CPU的战略价值在喧嚣的算力竞赛中被边缘化，CPU作为AI稳定运行的底座，其被视为“理所当然”——人们产生了一种错觉，仿佛在这一轮AI浪潮中，GPU决定了一切，而CPU只是配角。

这是一种由特定技术阶段导致的认知盲区。我们将“AI=大模型=GPU”划上等号，却忽略了：真正的通用智能，不仅需要“行动”（GPU），更需要“思考”（CPU）。当AI开始走出封闭的问答框，进入开放世界执行复杂任务时，旧范式的“因”就不再成立。一个新的变量——Agent——正成为将焦点重新聚焦到CPU之“缘”。

缘——

Agent AI拓展CPU的工作边界

AI Agent的兴起，极大地扩展了CPU的工作边界，使其从云计算地基，成为“决定AI响应速度和成本的前线关键”。

执行层虚拟化——

沙箱VM成为Agent的“身体”

早期Agent主要通过预定义API（如Function Calling）调用外部服务，执行能力受限。而从去年兴起的新一代Agent，采用了一种更强大的模式：在云端动态创建隔离的沙箱虚拟机。

典型的一个任务流（如“分析大量的图片”）的工作模式如下：

1.创建专属沙箱环境；

2.在沙箱内自动下载所有图片；

3.进行图片分析；

4.生成可视化报告；

5.销毁沙箱，释放资源。

整个执行过程——文件I/O、进程管理、代码解释、网络通信——全部由CPU承担，GPU仅在任务分析和最终总结时介入。这意味着，每个活跃的Agent背后，都有一个由CPU驱动的“数字员工”在干活。当百万级Agent并发运行时，对CPU核心数等的需求呈指数级增长。

为了实现极致的轻量化和快速启动，业界普遍采用微虚拟机（MicroVM）技术，包括亚马逊的Firecracker，腾讯的Cube和阿里巴巴的ACS Agent Sandbox等。与传统的虚拟机相比，MicroVM剥离了所有非必要的设备模拟和内核模块，隔离性高，开销极小，启动时间可缩短至毫秒级。然而，这种极致的优化也意味着几乎所有的系统调用和硬件交互都必须由CPU来处理，这对CPU的调度能力、设备访问带宽等提出了前所未有的挑战。

高并发与长在线——

从“瞬时交互”到“持续占用”

传统问答大模型的用户行为是“问完即走”，并发比通常低于1%。而Agent（尤其是编程助手如Cursor、Claude Code）往往被用户长时间挂起，一开就是数小时，这导致两个关键变化：

1.会话时长从分钟级进入小时级，大量沙箱环境长期驻留，持续消耗CPU资源；

2.任务类型分化：易优化的任务，如网页下载、简单解压，CPU占用碎片化，可通过池化技术提升利用率；难优化的任务，如视频渲染、科学计算、长时间代码编译，会持续霸占CPU核心。

一旦遇到“持续重计算”任务，再多的调度优化也无法掩盖CPU算力不足的事实。

存算分离架构——

CPU内存成为“第二显存”

为突破GPU昂贵的HBM限制，业界正推动“存算分离”架构，据DeepSeek发表的相关论文，其提出的Engram模块是典型代表：GPU在推理时，通过哈希检索从CPU内存中查找所需知识，仅带来约2%的速度损失，却极大扩展了模型的知识容量；代价则是CPU需承担额外的检索、筛选和数据转发任务。

这意味着高水平AI推理的边际成本将进一步降低，使得AI应用能够更广泛地部署，而无需完全依赖昂贵的GPU集群，也这也意味着CPU内存成为了AI系统的“核心知识库”，对内存容量、带宽及CPU处理能力提出更高要求。

果——性能瓶颈的三大实证：

CPU如何成为“新短板”？

而对于CPU在当前Agent AI时代的问题瓶颈，业界业已做了大量的研究，有了如下结论：

CPU成为AI响应时延的新短板

在佐治亚理工学院（Georgia Tech）与Intel实验室的研究人员联合发表的论文《A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI》中，对五大Agent框架（HaystackRAG、LangChain等）的延迟剖析，给出了如下的结论：

图1.针对不同Agent框架下CPU与GPU的运行时延分析

在HaystackRAG任务中，CPU处理占总延迟的90%以上，而GPU推理占总延迟的10%左右，在其他任务中，CPU环节占比普遍在40%–90%之间——用户感知的是端到端体验，而这个体验的“拖油瓶”正是CPU。这个数据的背后，是用户耐心的流失。研究表明，当AI应用的响应时间超过5秒，用户的满意度会急剧下降。如果CPU处理环节占据了绝大部分时间，那么无论GPU有多快，都无法挽回糟糕的用户体验。这迫使开发者和云厂商必须重新审视其算力配置策略，不能再一味地堆砌GPU。

能耗占比反转，CPU成“新大户”

在高并发Agent负载下，CPU能耗急剧攀升。

上述同一篇论文的研究显示，在处理LangChain任务时：

图2 针对不同Batch Size的CPU与GPU能耗对比

当Batch Size=128时，CPU能耗达1807焦耳，GPU为2307焦耳；此时的CPU能耗占比高达44%，与GPU平分秋色。这意味着数据中心必须重新设计电力与散热方案，CPU的能效比成为关键指标。

数据中心的PUE是衡量其能源效率的关键指标，如今，随着CPU能耗占比的显著提升，优化CPU的能效比变得同等重要。一颗能效比高出20%的CPU，在大规模部署下，每年可以为数据中心节省数百万度电！

KV Cache卸载加剧带宽压力

支持长上下文（如128K token）的模型，其KV Cache体积可达数十GB，远超GPU显存容量。解决方案是将不活跃的Cache卸载至CPU内存。

但这引入新瓶颈：当多个GPU同时请求数据时，其数据通道极易打满，提升总带宽成为当前CPU最明确的需求！

业——未来之行：

CPU需求的长期趋势与CPU新机遇

随着云计算的进一步普及，以及当前Agent带来的CPU增量需求，造成了今年的CPU缺货现象，据供应链消息，当前Intel、AMD的服务器CPU交货周期普遍拉长到8-10周，甚至有的到了6个月！

这不是一个短期的行为，而将是对CPU需求的长期趋势：

首先，云计算的稳定普及，推动了基于CPU的通用服务器需求的稳步增长；而当对AI的需求进一步增长时，随之而来的是需要承载海量并发的Agent沙箱环境，执行文件I/O、代码解释、进程隔离等密集型任务的通用服务器。这将形成一个与GPU计算集群平行且紧密协同的全新基础设施形态——“CPU-GPU双轮驱动”的计算集群。

这一趋势已得到全球算力巨头的敏锐捕捉与实质性押注：就在日前，英伟达做出了一个极具风向标意义的举动，主动追加20亿美元认购云服务商Core Weave的股票，深化双方绑定，英伟达宣称，Core Weave将在其下一代AI基础设施中大规模部署NVIDIA基于Arm架构自研的CPU，旨在解决Agent负载下的大量用户的高并发与低延迟需求难题。

由此，当CPU从AI算力体系中的“辅助角色”跃升为决定系统整体效能与扩展性的“关键先生”，全球半导体产业的权力格局正经历深刻重构。面对AI Agent所催生的计算范式——高并发、低延迟、能效敏感——CPU的架构选择、核心调度能力与I/O效率，成为支撑大规模Agent集群运行的底层基石。

在此背景下，x86 、Arm以及RISC-V三条技术路线机遇几何？

x86技术路线：兼容为王，稳健演进

x86架构凭借数十年积累的庞大软件生态、成熟的工具链及广泛的ISV（独立软件供应商）支持，在企业级市场长期占据主导地位，对于金融、电信、能源等对系统稳定性与迁移成本极度敏感的关键行业，x86仍是大部分用户的首选平台。

在国内，海光信息C86系列处理器已在上述关键领域实现规模化落地。面对AI Agent时代对高吞吐与低延迟的新要求，海光新一代产品在核心数量（最高达64核）、主频（基频2.7GHz）及内存带宽（支持DDR5-4800）等方面持续迭代，且其生态无缝兼容，使其成为中国算力基础设施中不可或缺的“压舱石”。

Arm技术路线：面向未来，能效为先

如果说x86的护城河深植于“过去”，那么Arm的机遇则根植于“当下”。Arm架构基于精简指令集（RISC）设计，具备低功耗、高并发的天然优势，与AI Agent所定义的新型工作负载高度契合。

首先，Arm架构能效比优势显著。AI Agent的典型负载由海量轻量级沙箱任务构成，对单线程峰值性能要求不高，但对单位功耗下的并发处理能力极为敏感。Arm处理器凭借更小的核心面积与更低的功耗，在同等TDP下可集成更多核心，从而在吞吐效率上超越传统x86方案。

其次，云原生友好与可定制性强。Arm的开放授权模式允许芯片厂商根据特定场景灵活集成各类专用模块，打造“场景定义芯片”（Scenario-Defined Chip），这正是构建高效Agent执行环境的关键。

放眼全球，头部云服务商已全面拥抱Arm：

AWS Graviton系列已迭代至第五代，广泛用于EC2实例；Microsoft Cobalt与Google Axion均基于Arm Neoverse平台，进入第二代产品的量产阶段；NVIDIA在其AI解决方案中采用的则是自研的Arm架构CPU，初代代号为Grace，第二代代号则为Vera；而据行业消息，Meta也即将在其数据中心部署代号为Phoenix的Arm架构CPU。Arm基础设施业务高级副总裁Mohamed Awad之前公开表示，到2025年底，Arm在数据中心CPU市场的份额将从15%提升至50%，其预测虽过于乐观，不过我们也看到，截止2025年第二季度，Arm处理器在服务器CPU市场的占比已达25%，AWS新部署的实例中有一半是基于Arm架构。

而欧洲和日本在Arm布局上则略显谨慎，但在能效与可持续发展政策的驱动下，正加速布局，例如欧洲和日本均部署了基于Arm的超算系统，SAP基于Graviton5的实例比上一代有60%的性能提升，

而国内也涌现了不少的Arm服务器CPU企业——一类是深耕多年的成熟领军企业，另一类是在市场化浪潮中奋力突围的创业新锐。

以华为和天津飞腾为代表，深耕Arm服务器CPU多年。华为基于自研微架构的鲲鹏系列服务器CPU，在金融、能源、电信等领域得到了规模应用；天津飞腾则聚焦高安全、高可靠场景，其FT系列CPU内置国密算法引擎与硬件级可信执行环境（TEE），可以有效提供硬件级安全隔离，有效防范恶意代码或越权行为，在党政、金融等敏感领域构筑了坚实壁垒。

而在2020~2021期间，一批Arm服务器CPU创业公司如雨后春笋般涌现，历经数年的技术攻坚与市场残酷筛选，到了2026 年 AI Agent 元年，这一群体内部已出现显著分化：部分企业已成功进入量产和市场化阶段，开始商业化突围；而更多企业仍处于“流片”的技术验证期，面临着严峻的考验。

其中鸿钧微电子和熠知电子两家Arm服务器CPU企业均已经进入了量产通道：

鸿钧微电子作为国内Arm服务器CPU的引领者，其首款产品鸿旻91系列服务器CPU展现出鲜明的前瞻性设计，基于Armv9授权、单Die集成了128个高性能核心，最高工作主频3.3GHz，支持DDR5-6400MT/s内存，同时产品功耗可圈可点，不但可应用于云计算场景，而且满足于高并发、轻线程的Agent沙箱负载场景。据业界人士透露，鸿旻91系列芯片已经规模量产，且公司于2026年初完成了一轮由国际知名投资机构领投的10亿元人民币融资。

熠知的TF7000系列芯片基于Armv8授权，单Die集成40核，通过合封支持单芯片80核，最高工作主频3.0GHz，支持DDR4 3200，TF7000当前主要聚焦于边缘计算等场景；同时熠知电子也于近日完成一轮新的融资，发布了第三代熠知AI CPU TF9000系列产品，并向业界正式发布成为“全球领先的XPU科技公司”的新愿景，通过“inside”产品策略，以芯片为核心延伸至设备及多行业AI解决方案，兼顾“灯塔用户标杆打造+生态共建广度覆盖”的市场布局。

与此同时，阿里平头哥与中兴微电子也已分别实现Arm架构服务器CPU的量产，产品代号分别为“倚天710”和“珠峰”。然而，这两款产品在当前市场端的却没有发出更大的声音。

而遇贤微电子、希奥端、博瑞晶芯等企业均处于“技术验证”的关键节点——一次成功的流片与随后的量产，是他们证明自身的一次高考，但从图纸到量产，这是一场考验“资金厚度、人才密度与商务广度”的极限马拉松！

RISC-V技术路线：开源破局，未来能来？

如果说x86代表了“过去”厚重的生态积累，Arm代表了“当下”能效与云原生的最佳平衡，那么RISC-V能否毫无悬念地成为象征“未来”的终极选择？对此，我们保持了审慎的怀疑。

诚然，作为一款开放、免费、无授权限制的指令集架构，RISC-V在理论层面展现出诱人的独特性，其具有独特的模块化与场景定义能力，开放的架构允许用户灵活添加自定义扩展，国内不少企业，包括算能、达摩院等也已推出相应的RISC-V解决方案。然而，理论的完美无法掩盖现实的鸿沟。AI Agent所需的CPU并非简单的嵌入式CPU，而是必须承载高并发、高可靠、强兼容性的企业级服务器CPU。在这个战场上，RISC-V面临着严峻的“时间和生态拷问”：

究竟还要多久才能落地？业界对于RISC-V何时能在服务器场景实现大规模平滑应用，预期分化，乐观者预言“三年可见”，谨慎者认为“五年方成”，而更有甚者则直言“八年难期”。这种巨大的不确定性，恰恰反映了其在软件生态、工具链成熟度上的短板——回望Arm的崛起之路，2008年Arm从IoT领域开始切入服务器领域，历经15年的生态打磨、巨头押注和软件适配，才得以叩开服务器市场的大门。RISC-V注定要重复这段漫长而艰辛的旅程，甚至可能更加坎坷——服务器上部署的大量软件均需要在RISC-V上进行适配优化，才能进入企业的生产现场，而目前我们并没有看到国内外的巨头在RISC-V生态层面的巨大投入；同时，也正如唐志敏老师在最近一次讲座中提及的：RISC-V在硬件生态上还不成熟，目前还缺少有竞争优势的处理器核，同时缺乏支持多核互连的高性能片上网络(NoC)，目前大部分还在用Arm的NoC方案。

我们期待RISC-V所代表的开源精神能为国产算力带来新的破局点，但在服务器这片深水区，“未来”是否会来？何时能来？这不仅仅是一个技术问题，更是一场关于生态耐心、资本定力与产业协同的漫长博弈。RISC-V或许更多是一个值得布局的“远期期权”！

展望——

构建面向Agent的CPU算力新机遇

AI Agent时代的到来，彻底重构了算力的价值逻辑。

CPU的价值不仅体现在支撑智能体的高并发沙箱与逻辑编排上，更在于它是云计算体系的绝对基石。在云计算架构下，CPU承载着虚拟化、容器调度、网络转发及存储I/O等核心功能，直接决定了云资源的利用率与弹性伸缩能力，而Agent时代“长在线、高交互”的特性，使得CPU成为连接云端资源与智能应用的枢纽，其能效与吞吐能力直接定义了云服务的成本底线与体验上限。

对于中国CPU产业而言，这是一场“场景驱动”历史机遇——从成熟领军企业到创新力量的商业化突围，国内的CPU需要凭借对本土场景的深刻洞察，从“技术追随”转向“需求定义”。若能紧扣Agent时代，我们有望构建起在全球格局中占据重要一席的算力新赛道！

本文来自微信公众号“半导体行业观察”（ID：icbank），作者：编辑部。