共封装光器件 (CPO) 已成为人工智能数据中心领域最热门的技术之一。供应商和标准组织积极将 CPO 定位为解决人工智能带宽、延迟和功耗危机的方案,但许多用户仍然犹豫不决,他们不确定自己是否需要 CPO;CPO 技术是否足够成熟;以及采用 CPO 带来的运营风险是否会大于性能收益。鉴于当前的技术前景和用户疑虑,我们最近完成了一项关于 CPO 前景的研究。
在OFC、ECOC以及如今的GTC上,CPO的演示令人印象深刻。然而,如今除了少数超大规模数据中心外,大多数数据中心都鲜少部署CPO。与数据中心经理交谈后,你会发现整个行业都在谨慎地为一场可能需要十年才能完全实现的科技转型做准备。
然而,CPO不仅仅是一个技术问题。它还关乎用户心理、风险承受能力、数据中心文化以及基础设施买家与其供应商之间不断变化的关系。
为什么CPO重回聚光灯下
CPO并非新生事物。将光子学和电子学紧密封装在一起的概念可以追溯到多年前,IBM早期在超级计算机互连方面的研究以及“flyover”互连概念。改变的是人工智能的兴起,它已成为现代数据中心的核心工作负载。在人工智能热潮之前,CPO被宣传为一项应用广泛的创新技术,可用于传感器、电信、高性能计算和数据中心互连。这种“shotgun”式的定位在初期引发了人们的兴奋,但最终未能维持市场需求。
人工智能驱动的需求更加集中。CPO 被视为人工智能数据中心中特定实际问题的解决方案:随着行业向 112G 和 224G SerDes 迈进,以及交换机 ASIC 接近 51.2T 及更高阶,电气互连的损耗越来越大,功耗也越来越高。在此背景下,CPO 的价值主张就很容易理解了。通过缩短电气路径并将光接口更靠近 ASIC,CPO 有望实现更高的能源效率、更高的带宽密度,并为未来超高基数交换机(51.2T 至 204.8T)铺平道路。下表记录了关于 CPO 最能展现其优势的共识。
这听起来好得令人难以置信,而且很可能确实如此。潜在CPO用户的不信任源于CPO最初比可插拔交换机更复杂,而传统数据中心机箱的前面板设计又比同等CPO产品更简单,也更容易维护。几十年前的网络管理员如果知道可插拔功能可以如此轻易地被取消,一定会感到震惊。或许可以通过指出,取消可插拔功能也可能减少现场故障,来重建一些信心。
尽管人们都在谈论节省资本支出,但早期CPO交换机的成本可能高于传统的可插拔交换机。买者自负!
潜在 CPO 用户的真实感受
数据中心运营商对 CPO 的态度存在着一种矛盾的情绪,既充满好奇又心存疑虑。运营商承认 CPO 在技术上似乎很有吸引力,但也认为它可能会成为运维上的难题。CIR 的研究表明,即使在传统数据中心市场(即非超大规模数据中心)中,人们对 CPO 的了解仍然有限。在超大规模环境之外,普通数据中心经理可能对 CPO 知之甚少。对于成熟的可插拔收发器供应商来说,情况也是如此。
从工程角度来看,当长期目标是扩展到 102.4T ASIC 时,CPO 似乎最为重要。此时,功耗成为限制因素,并且有迹象表明需要“极高”的端口密度。这往往将 CPO 定义为一种超大规模数据中心技术。事实上,微软、Meta、谷歌和亚马逊已经在进行 CPO 的内部试验。这并非出于实验目的。他们正在寻找任何能够帮助他们在未来避免更高功耗预算的方法。超大规模数据中心将 CPO 视为更广泛的架构转变的一部分:光子结构、更密集的机架,以及将 AI 集群和机架的扩展能力超越铜缆所能支持的范围。
从这个意义上讲,超大规模数据中心运营商并不将CPO视为一项孤立的技术升级,而是将其视为下一代AI基础设施的关键赋能要素。此外,与企业级数据中心以及规模较小的云和边缘数据中心的拥有者/管理者不同,超大规模数据中心运营商更倾向于采用CPO,这得益于他们已经接受非传统的供应链模式。与企业和小型数据中心运营商不同,如果性能提升足以弥补供应商的不足,超大规模数据中心运营商并不介意供应商锁定。他们拥有采购优势,其工程团队能够针对供应商的弱点进行设计,并且在许多情况下,他们有能力要求定制解决方案。对于超大规模数据中心运营商而言,问题不是“我们是否应该部署CPO?”,而是“我们能够以多快的速度将其产业化?”
“可靠性才是关键”
CIR 指出,尽管行业媒体中提及了一些小型用户,但在超大规模环境之外,目前几乎没有 CPO 部署的迹象。即使存在一些小规模的 CPO 部署,它们的知名度和影响力也不足以产生显著影响。企业和托管运营商以及其他小型运营商与超大规模运营商有着截然不同的企业文化。
他们不会构建大型专有平台,而且很少有工程人员来运行复杂的光集成项目。他们对 CPO 的态度受到一系列不同优先事项的影响:互操作性、多供应商供应链和现场可维护性。这将导致不同的采用曲线。超大规模运营商可能会率先采用,而其他市场参与者则会等待“证据”、标准化接口和成熟的生态系统。实际上,超大规模运营商可能扮演着行业的测试实验室的角色,而企业和其他小型运营商最终将成为大众市场。
LPO 和 NPO 作为舒适区
与此同时,影响用户态度的最重要趋势之一是“过渡性”解决方案的兴起。CIR 强调,谨慎的潜在 CPO 用户不会直接从可插拔设备跳到完整的 CPO。相反,他们会采用 NPO 和 LPO 等中间架构,这些架构在不完全牺牲模块化的前提下,提供了降低功耗和提高信号完整性的一些优势。
运营商目前采取渐进式部署,是因为他们不信任早期 CPO 的生产良率、散热性能或维修/维护模式。NPO 和 LPO 使他们能够在不立即重写操作手册的情况下,尝试更短的电气走线、更低的 DSP 开销以及新兴的电气接口,例如 CEI-112G 和 CEI-224G。
LPO 对注重功耗和延迟的运营商极具吸引力。通过移除 DSP,LPO 承诺降低功耗和延迟,这对人工智能 (AI) 来说至关重要。但它也带来了一些限制:传输距离更短、主机要求更严格以及信号预算更紧张。NPO 无需完全共封装即可提供近距离传输优势,从而降低了散热和制造复杂性方面的风险。
这些过渡技术至关重要,因为它们将影响 CPO 的普及速度。CPO 是“最终目标”,但对于企业运营商而言,CPO 被视为“下一个十年的技术”。许多人认为,即使 CPO 变得重要,过渡阶段的技术也能在不承担完全共封装风险的情况下带来益处。
热管理的现实与可插拔性的回归
CPO(集成光器件)应用最常被提及的技术障碍是热管理。温度不稳定会导致波长漂移、加速老化和性能下降。将光学器件靠近ASIC本身就会引入与热相关的风险。光学元件——尤其是激光器和光子集成电路——对温度有着严格的要求。CIR的CPO报告指出,热管理是目前阻碍CPO应用的最大因素之一。
然而,CPO激光器最引人注目之处并非在于其自身存在热问题的悖论,而在于它们可能以一种隐蔽的方式回归可插拔性。目前,由OIF实施者协议推动的外部激光器小型可插拔器件(ELSFP: External Laser Small Form Factor Pluggable )代表了完全CPO集成和传统模块化光学器件之间的一种折衷方案。其逻辑很简单:激光器会发生故障,性能会下降,而且最好将其放置在温度较低的区域。外部激光器允许在不影响开关ASIC封装的情况下进行更换——从某种意义上说,这就是可插拔性的回归。
从用户态度角度来看,ELSFP之所以吸引人,是因为它解决了困扰CPO讨论的“维修焦虑”。如果至少可以更换激光源,运营商或许并不介意失去更换光引擎的能力。仅此一点就足以让CPO模型显得不那么脆弱。然而,这种外部方案也引入了新的风险,例如插入损耗以及一个激光器故障可能影响多个通道。ELSFP和外部激光器架构有望在促进其普及应用方面发挥重要作用。
供应商的影响:博通和英伟达塑造认知
用户对CPO的态度也受到其倡导者信誉的影响。值得注意的是,博通和英伟达已成为推动CPO发展的重要供应商。博通早期凭借其Bailly平台,确立了其在交换机ASIC集成领域的标杆地位。与此同时,英伟达通过将CPO集成到其Spectrum-X和Quantum-X平台,并公开展示这些系统,使CPO成为主流人工智能领域的热门话题。
英伟达的做法尤其值得关注,因为它体现了对运营商需求的重视。其架构包含可拆卸的光子组件,这意味着采用了部分模块化模型。实际上,英伟达在设计CPO系统时似乎考虑到了可制造性和可更换性,并意识到如果缺乏可维护性,纯粹的封装设计将难以推广。
供应商的策略至关重要,因为用户通常只有在确信存在“可靠的供应商路径”时才会采用新的基础设施技术。在网络领域,信任往往取决于品牌。如果运营商相信供应商能够通过工程支持和长期产品稳定性来规避风险,他们就会容忍风险。因此,博通和英伟达不仅仅是供应商,它们更是CPO信心的来源。
供应链焦虑:“这会不会又是一个厂商锁定陷阱?”
话虽如此,CPO的采购方式却让运营商感到不安。在可插拔模式下,运营商可以从多个供应商处购买光模块,并将其视为可互换的商品。而CPO则威胁到了这种模式。如果将光模块集成到交换机封装中,运营商就不得不依赖于交换机供应商的封装体系和更换政策。客户可能不再需要购买可互换的模块,而是必须从单一供应商或合作伙伴处采购集成的CPO系统。另一个问题是,CPO可能导致光模块故障需要更换电路板、线路卡,甚至整个交换机组件。数据中心管理人员并不想听到这样的消息。CPO违背了运维团队的直觉。许多人会将CPO解读为“伪装成创新的厂商锁定”。
正因如此,像OIF和先进光子学联盟这样的组织开展的互操作性工作才显得尤为重要。用户不仅关注性能,还关注生态系统的成熟度和多厂商信誉。
CPO 的实际应用发展趋势:三阶段模式
随着运营商对设备测试、供应链、线缆管理和冷却的信心增强,CPO 市场收入将持续增长。与所有此类技术一样,如果 CPO 成功,其增长将是非线性的。
从怀疑到接受(2026-2028 年):CPO 将成为超大规模 AI 集群的辅助工具,而非主流网络技术。AI 架构的持续扩展将迫使人们对 CPO 进行更深入的评估。限制因素将是激光器、封装良率、热设计和测试方面尚未解决的问题。
从接受到依赖(2029-2032 年):下一阶段将从实验转向依赖。随着 AI 集群规模向 100T 级扩展,CPO 将成为迄今为止唯一能够胜任此项工作的技术。用户态度可能会从“我们正在评估”转变为“没有它,我们就无法扩展”。
从依赖到优化(2032-2035):一旦CPO成为主流,讨论的焦点将发生转变。届时,讨论的重点将放在哪家供应商的CPO架构更胜一筹。这将是非超大规模运营商开始大规模采用CPO的时期。
我们意识到,我们对CPO的预测数据可能对某些人来说过于乐观。持怀疑态度的人会想起那些早已销声匿迹的网络技术——FDDI就是其中之一。CIR认为,一个重要的因素是AI本身的演进。更小的语言模型可能会降低对高速互连的需求,从而使CPO成为一项小众技术。如果AI工作负载变得分布式或对带宽的需求降低,CPO的紧迫性也可能随之下降。
CPO:一场文化变革
CPO 的成功不仅仅取决于带宽密度和每比特功耗指标,更取决于运营商能否信任它。目前,用户对此既感兴趣又持怀疑态度。超大规模数据中心运营商正在积极推进,因为他们中的一些人认为,即使 CPO 会颠覆数十年来定义光网络的现有服务模式,它仍将是扩展 AI 网络架构的唯一长期策略。
未来十年,运营商的态度将从“这看起来很冒险”转变为“这就是现代 AI 网络的运作方式”。当这种转变发生时,CPO 将不再被视为一种光技术,而将被视为一种基础设施的未来。
另一个不确定因素是机架中的铜缆。NVIDIA在NVLink中继续使用铜缆,这强化了业界长期以来的模式:只有在铜缆出现故障时才会采用光纤。CIR指出,光纤取代铜缆的趋势尚未出现。光纤会穿透机架,但没有人确切知道穿透速度和深度。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
END
本文来自微信公众号“半导体行业观察”(ID:icbank),作者:CIR。