人工智能正在经历一场静默而深刻的范式转移——从“回答问题”的大模型(LLM),迈向能“自主行动”的智能体(Agent)。这一转变不仅改变了AI的能力边界,也正在重塑底层算力的供需格局。在这场变革中,一个长期被视为“基础设施底座”的“关键先生”正在被重新定义——它并非风光无限的GPU,而是始终支撑数据中心运行的CPU。这不是一次简单的周期轮动,而是一场由工作负载特性驱动的、对CPU核心价值的深度回归与重估。
在东方智慧中,“因缘果业”揭示了万物生起的深层逻辑:“因”为种子,“缘”为条件,“果”为显现,“业”为延续之势。无因则果不生,有因无缘亦不成;一旦因缘和合,其果必然显现,并进一步化为新业,推动未来之变。今日AI Agent的演进,恰如这一古老法则的现代回响。
因——认知的偏差:
CPU为何曾看似“失焦”?
要理解CPU为何能再次站到“C位”,首先要澄清一个误区:CPU从未不重要。在传统的云计算和数据中心架构中,CPU始终是绝对的核心。无论是虚拟化技术的实现、容器编排、网络流量转发,还是数据库与中间件的运行,无一不依赖CPU强大的计算与调度能力,高性能CPU是现代云计算体系大厦的地基。
然而,在过往若干年的AI时代,大语言模型(LLM)的成功几乎完全建立在大规模并行矩阵运算之上。在这一计算范式下,无论是训练还是推理,核心任务都是对海量矩阵进行运算——这正是GPU的绝对强项。而CPU则退居幕后,负责数据预处理、任务调度与结果后处理等调度性工作!但看似退居幕后的CPU,实则扮演着“总指挥”的关键角色。
受此范式驱动,资本市场对GPU创业公司掀起空前追捧,到了2025年底,摩尔线程、沐曦、壁仞、天数智芯等GPU企业引发一轮上市热潮,CPU的战略价值在喧嚣的算力竞赛中被边缘化,CPU作为AI稳定运行的底座,其被视为“理所当然”——人们产生了一种错觉,仿佛在这一轮AI浪潮中,GPU决定了一切,而CPU只是配角。
这是一种由特定技术阶段导致的认知盲区。我们将“AI=大模型=GPU”划上等号,却忽略了:真正的通用智能,不仅需要“行动”(GPU),更需要“思考”(CPU)。当AI开始走出封闭的问答框,进入开放世界执行复杂任务时,旧范式的“因”就不再成立。一个新的变量——Agent——正成为将焦点重新聚焦到CPU之“缘”。
缘——
Agent AI拓展CPU的工作边界
AI Agent的兴起,极大地扩展了CPU的工作边界,使其从云计算地基,成为“决定AI响应速度和成本的前线关键”。
1
执行层虚拟化——
沙箱VM成为Agent的“身体”
早期Agent主要通过预定义API(如Function Calling)调用外部服务,执行能力受限。而从去年兴起的新一代Agent,采用了一种更强大的模式:在云端动态创建隔离的沙箱虚拟机。
典型的一个任务流(如“分析大量的图片”)的工作模式如下:
1.创建专属沙箱环境;
2.在沙箱内自动下载所有图片;
3.进行图片分析;
4.生成可视化报告;
5.销毁沙箱,释放资源。
整个执行过程——文件I/O、进程管理、代码解释、网络通信——全部由CPU承担,GPU仅在任务分析和最终总结时介入。这意味着,每个活跃的Agent背后,都有一个由CPU驱动的“数字员工”在干活。当百万级Agent并发运行时,对CPU核心数等的需求呈指数级增长。
为了实现极致的轻量化和快速启动,业界普遍采用微虚拟机(MicroVM)技术,包括亚马逊的Firecracker,腾讯的Cube和阿里巴巴的ACS Agent Sandbox等。与传统的虚拟机相比,MicroVM剥离了所有非必要的设备模拟和内核模块,隔离性高,开销极小,启动时间可缩短至毫秒级。然而,这种极致的优化也意味着几乎所有的系统调用和硬件交互都必须由CPU来处理,这对CPU的调度能力、设备访问带宽等提出了前所未有的挑战。
2
高并发与长在线——
从“瞬时交互”到“持续占用”
传统问答大模型的用户行为是“问完即走”,并发比通常低于1%。而Agent(尤其是编程助手如Cursor、Claude Code)往往被用户长时间挂起,一开就是数小时,这导致两个关键变化:
1.会话时长从分钟级进入小时级,大量沙箱环境长期驻留,持续消耗CPU资源;
2.任务类型分化:易优化的任务,如网页下载、简单解压,CPU占用碎片化,可通过池化技术提升利用率;难优化的任务,如视频渲染、科学计算、长时间代码编译,会持续霸占CPU核心。
一旦遇到“持续重计算”任务,再多的调度优化也无法掩盖CPU算力不足的事实。
3
存算分离架构——
CPU内存成为“第二显存”
为突破GPU昂贵的HBM限制,业界正推动“存算分离”架构,据DeepSeek发表的相关论文,其提出的Engram模块是典型代表:GPU在推理时,通过哈希检索从CPU内存中查找所需知识,仅带来约2%的速度损失,却极大扩展了模型的知识容量;代价则是CPU需承担额外的检索、筛选和数据转发任务。
这意味着高水平AI推理的边际成本将进一步降低,使得AI应用能够更广泛地部署,而无需完全依赖昂贵的GPU集群,也这也意味着CPU内存成为了AI系统的“核心知识库”,对内存容量、带宽及CPU处理能力提出更高要求。
果——性能瓶颈的三大实证:
CPU如何成为“新短板”?
而对于CPU在当前Agent AI时代的问题瓶颈,业界业已做了大量的研究,有了如下结论:
1
CPU成为AI响应时延的新短板
在佐治亚理工学院(Georgia Tech)与Intel实验室的研究人员联合发表的论文《A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI》中,对五大Agent框架(HaystackRAG、LangChain等)的延迟剖析,给出了如下的结论:
图1.针对不同Agent框架下CPU与GPU的运行时延分析
在HaystackRAG任务中,CPU处理占总延迟的90%以上,而GPU推理占总延迟的10%左右,在其他任务中,CPU环节占比普遍在40%–90%之间——用户感知的是端到端体验,而这个体验的“拖油瓶”正是CPU。这个数据的背后,是用户耐心的流失。研究表明,当AI应用的响应时间超过5秒,用户的满意度会急剧下降。如果CPU处理环节占据了绝大部分时间,那么无论GPU有多快,都无法挽回糟糕的用户体验。这迫使开发者和云厂商必须重新审视其算力配置策略,不能再一味地堆砌GPU。
2
能耗占比反转,CPU成“新大户”
在高并发Agent负载下,CPU能耗急剧攀升。
上述同一篇论文的研究显示,在处理LangChain任务时:
图2 针对不同Batch Size的CPU与GPU能耗对比
当Batch Size=128时,CPU能耗达1807焦耳,GPU为2307焦耳;此时的CPU能耗占比高达44%,与GPU平分秋色。这意味着数据中心必须重新设计电力与散热方案,CPU的能效比成为关键指标。
数据中心的PUE是衡量其能源效率的关键指标,如今,随着CPU能耗占比的显著提升,优化CPU的能效比变得同等重要。一颗能效比高出20%的CPU,在大规模部署下,每年可以为数据中心节省数百万度电!
3
KV Cache卸载加剧带宽压力
支持长上下文(如128K token)的模型,其KV Cache体积可达数十GB,远超GPU显存容量。解决方案是将不活跃的Cache卸载至CPU内存。
但这引入新瓶颈:当多个GPU同时请求数据时,其数据通道极易打满,提升总带宽成为当前CPU最明确的需求!
业——未来之行:
CPU需求的长期趋势与CPU新机遇
随着云计算的进一步普及,以及当前Agent带来的CPU增量需求,造成了今年的CPU缺货现象,据供应链消息,当前Intel、AMD的服务器CPU交货周期普遍拉长到8-10周,甚至有的到了6个月!
这不是一个短期的行为,而将是对CPU需求的长期趋势:
首先,云计算的稳定普及,推动了基于CPU的通用服务器需求的稳步增长;而当对AI的需求进一步增长时,随之而来的是需要承载海量并发的Agent沙箱环境,执行文件I/O、代码解释、进程隔离等密集型任务的通用服务器。这将形成一个与GPU计算集群平行且紧密协同的全新基础设施形态——“CPU-GPU双轮驱动”的计算集群。
这一趋势已得到全球算力巨头的敏锐捕捉与实质性押注:就在日前,英伟达做出了一个极具风向标意义的举动,主动追加20亿美元认购云服务商Core Weave的股票,深化双方绑定,英伟达宣称,Core Weave将在其下一代AI基础设施中大规模部署NVIDIA基于Arm架构自研的CPU,旨在解决Agent负载下的大量用户的高并发与低延迟需求难题。
由此,当CPU从AI算力体系中的“辅助角色”跃升为决定系统整体效能与扩展性的“关键先生”,全球半导体产业的权力格局正经历深刻重构。面对AI Agent所催生的计算范式——高并发、低延迟、能效敏感——CPU的架构选择、核心调度能力与I/O效率,成为支撑大规模Agent集群运行的底层基石。
在此背景下,x86 、Arm以及RISC-V三条技术路线机遇几何?
1
x86技术路线:兼容为王,稳健演进
x86架构凭借数十年积累的庞大软件生态、成熟的工具链及广泛的ISV(独立软件供应商)支持,在企业级市场长期占据主导地位,对于金融、电信、能源等对系统稳定性与迁移成本极度敏感的关键行业,x86仍是大部分用户的首选平台。
在国内,海光信息C86系列处理器已在上述关键领域实现规模化落地。面对AI Agent时代对高吞吐与低延迟的新要求,海光新一代产品在核心数量(最高达64核)、主频(基频2.7GHz)及内存带宽(支持DDR5-4800)等方面持续迭代,且其生态无缝兼容,使其成为中国算力基础设施中不可或缺的“压舱石”。
2
Arm技术路线:面向未来,能效为先
如果说x86的护城河深植于“过去”,那么Arm的机遇则根植于“当下”。Arm架构基于精简指令集(RISC)设计,具备低功耗、高并发的天然优势,与AI Agent所定义的新型工作负载高度契合。
首先,Arm架构能效比优势显著。AI Agent的典型负载由海量轻量级沙箱任务构成,对单线程峰值性能要求不高,但对单位功耗下的并发处理能力极为敏感。Arm处理器凭借更小的核心面积与更低的功耗,在同等TDP下可集成更多核心,从而在吞吐效率上超越传统x86方案。
其次,云原生友好与可定制性强。Arm的开放授权模式允许芯片厂商根据特定场景灵活集成各类专用模块,打造“场景定义芯片”(Scenario-Defined Chip),这正是构建高效Agent执行环境的关键。
放眼全球,头部云服务商已全面拥抱Arm:
AWS Graviton系列已迭代至第五代,广泛用于EC2实例;Microsoft Cobalt与Google Axion均基于Arm Neoverse平台,进入第二代产品的量产阶段;NVIDIA在其AI解决方案中采用的则是自研的Arm架构CPU,初代代号为Grace,第二代代号则为Vera;而据行业消息,Meta也即将在其数据中心部署代号为Phoenix的Arm架构CPU。Arm基础设施业务高级副总裁Mohamed Awad之前公开表示,到2025年底,Arm在数据中心CPU市场的份额将从15%提升至50%,其预测虽过于乐观,不过我们也看到,截止2025年第二季度,Arm处理器在服务器CPU市场的占比已达25%,AWS新部署的实例中有一半是基于Arm架构。
而欧洲和日本在Arm布局上则略显谨慎,但在能效与可持续发展政策的驱动下,正加速布局,例如欧洲和日本均部署了基于Arm的超算系统,SAP基于Graviton5的实例比上一代有60%的性能提升,
而国内也涌现了不少的Arm服务器CPU企业——一类是深耕多年的成熟领军企业,另一类是在市场化浪潮中奋力突围的创业新锐。
以华为和天津飞腾为代表,深耕Arm服务器CPU多年。华为基于自研微架构的鲲鹏系列服务器CPU,在金融、能源、电信等领域得到了规模应用;天津飞腾则聚焦高安全、高可靠场景,其FT系列CPU内置国密算法引擎与硬件级可信执行环境(TEE),可以有效提供硬件级安全隔离,有效防范恶意代码或越权行为,在党政、金融等敏感领域构筑了坚实壁垒。
而在2020~2021期间,一批Arm服务器CPU创业公司如雨后春笋般涌现,历经数年的技术攻坚与市场残酷筛选,到了2026 年 AI Agent 元年,这一群体内部已出现显著分化:部分企业已成功进入量产和市场化阶段,开始商业化突围;而更多企业仍处于“流片”的技术验证期,面临着严峻的考验。
其中鸿钧微电子和熠知电子两家Arm服务器CPU企业均已经进入了量产通道:
鸿钧微电子作为国内Arm服务器CPU的引领者,其首款产品鸿旻91系列服务器CPU展现出鲜明的前瞻性设计,基于Armv9授权、单Die集成了128个高性能核心,最高工作主频3.3GHz,支持DDR5-6400MT/s内存,同时产品功耗可圈可点,不但可应用于云计算场景,而且满足于高并发、轻线程的Agent沙箱负载场景。据业界人士透露,鸿旻91系列芯片已经规模量产,且公司于2026年初完成了一轮由国际知名投资机构领投的10亿元人民币融资。
熠知的TF7000系列芯片基于Armv8授权,单Die集成40核,通过合封支持单芯片80核,最高工作主频3.0GHz,支持DDR4 3200,TF7000当前主要聚焦于边缘计算等场景;同时熠知电子也于近日完成一轮新的融资,发布了第三代熠知AI CPU TF9000系列产品,并向业界正式发布成为“全球领先的XPU科技公司”的新愿景,通过“inside”产品策略,以芯片为核心延伸至设备及多行业AI解决方案,兼顾“灯塔用户标杆打造+生态共建广度覆盖”的市场布局。
与此同时,阿里平头哥与中兴微电子也已分别实现Arm架构服务器CPU的量产,产品代号分别为“倚天710”和“珠峰”。然而,这两款产品在当前市场端的却没有发出更大的声音。
而遇贤微电子、希奥端、博瑞晶芯等企业均处于“技术验证”的关键节点——一次成功的流片与随后的量产,是他们证明自身的一次高考,但从图纸到量产,这是一场考验“资金厚度、人才密度与商务广度”的极限马拉松!
3
RISC-V技术路线:开源破局,未来能来?
如果说x86代表了“过去”厚重的生态积累,Arm代表了“当下”能效与云原生的最佳平衡,那么RISC-V能否毫无悬念地成为象征“未来”的终极选择?对此,我们保持了审慎的怀疑。
诚然,作为一款开放、免费、无授权限制的指令集架构,RISC-V在理论层面展现出诱人的独特性,其具有独特的模块化与场景定义能力,开放的架构允许用户灵活添加自定义扩展,国内不少企业,包括算能、达摩院等也已推出相应的RISC-V解决方案。然而,理论的完美无法掩盖现实的鸿沟。AI Agent所需的CPU并非简单的嵌入式CPU,而是必须承载高并发、高可靠、强兼容性的企业级服务器CPU。在这个战场上,RISC-V面临着严峻的“时间和生态拷问”:
究竟还要多久才能落地?业界对于RISC-V何时能在服务器场景实现大规模平滑应用,预期分化,乐观者预言“三年可见”,谨慎者认为“五年方成”,而更有甚者则直言“八年难期”。这种巨大的不确定性,恰恰反映了其在软件生态、工具链成熟度上的短板——回望Arm的崛起之路,2008年Arm从IoT领域开始切入服务器领域,历经15年的生态打磨、巨头押注和软件适配,才得以叩开服务器市场的大门。RISC-V注定要重复这段漫长而艰辛的旅程,甚至可能更加坎坷——服务器上部署的大量软件均需要在RISC-V上进行适配优化,才能进入企业的生产现场,而目前我们并没有看到国内外的巨头在RISC-V生态层面的巨大投入;同时,也正如唐志敏老师在最近一次讲座中提及的:RISC-V在硬件生态上还不成熟,目前还缺少有竞争优势的处理器核,同时缺乏支持多核互连的高性能片上网络(NoC),目前大部分还在用Arm的NoC方案。
我们期待RISC-V所代表的开源精神能为国产算力带来新的破局点,但在服务器这片深水区,“未来”是否会来?何时能来?这不仅仅是一个技术问题,更是一场关于生态耐心、资本定力与产业协同的漫长博弈。RISC-V或许更多是一个值得布局的“远期期权”!
展望——
构建面向Agent的CPU算力新机遇
AI Agent时代的到来,彻底重构了算力的价值逻辑。
CPU的价值不仅体现在支撑智能体的高并发沙箱与逻辑编排上,更在于它是云计算体系的绝对基石。在云计算架构下,CPU承载着虚拟化、容器调度、网络转发及存储I/O等核心功能,直接决定了云资源的利用率与弹性伸缩能力,而Agent时代“长在线、高交互”的特性,使得CPU成为连接云端资源与智能应用的枢纽,其能效与吞吐能力直接定义了云服务的成本底线与体验上限。
对于中国CPU产业而言,这是一场“场景驱动”历史机遇——从成熟领军企业到创新力量的商业化突围,国内的CPU需要凭借对本土场景的深刻洞察,从“技术追随”转向“需求定义”。若能紧扣Agent时代,我们有望构建起在全球格局中占据重要一席的算力新赛道!
本文来自微信公众号“半导体行业观察”(ID:icbank),作者:编辑部。