光时代,CPO会是英伟达的下一个“宏大叙事”吗?

:memo: 作者: 科创板日报 郑远方| :date: 发布时间:2025-01-19 10:07:53

光时代,CPO会是英伟达的下一个“宏大叙事”吗?

摘要

近期,英伟达面临GPU新品散热问题和大客户订单受影响的困境。为保住“算力霸主”地位,英伟达计划推出CPO(光电共封装)交换机,预计2023年8月量产,实现115.2T的信号传输。然而,CPO技术的量产仍面临挑战,英伟达能否凭借这一技术突破困境,尚需时间验证。


正文

英伟达的困境

  • GPU新品散热问题:英伟达的GB200系列机柜因设计复杂,高性能计算带来高功耗及高散热需求,单机柜问题虽已“大致解决”,但多机柜连接问题仍然“巨大”,需高达8万根铜线,散热和信号干扰问题陆续浮现。
  • 大客户订单受影响:微软、亚马逊、谷歌和Meta等公司已选择推迟Blackwell订单或转向Hopper架构,主要原因是Blackwell的功耗“前所未有得高”,每个机柜功耗高达120-132千瓦,且出现连接故障,进一步加剧了热管理问题。

CPO:英伟达的技术解药

  • CPO是什么?
    CPO(Co-Packaged Optics,光电共封装)是一种新型光电子集成技术,通过缩短光信号输入和运算单位之间的电学互连长度,CPO在提高光模块和ASIC芯片之间互连密度的同时,实现了更低功耗,成为解决未来数据运算处理中海量数据高速传输问题的重要技术途径。
  • 市场潜力巨大:根据摩根士丹利的AI供应链产业报告,CPO市场规模预计从2023年的800万美元激增至2030年的93亿美元,7年成长空间达千倍,年复合成长率高达172%。

英伟达的CPO布局

  • 英伟达计划从2025年下半年推出的GB300芯片开始采用CPO技术,Rubin平台(Blackwell下一代平台)也将引入CPO,旨在突破NVLink 72互连的限制,提升通信质量。
  • 摩根士丹利预测,英伟达的Rubin平台及其NVL服务器机柜系统将在2027年占据全球CPO需求的75%。

与巨头同行

  • 业界广泛采用CPO:除英伟达外,AMD、思科、IBM、英特尔等巨头也在积极布局CPO技术:
    • Marvell:1月6日宣布在AI加速器架构上整合CPO技术,提升服务器性能。
    • IBM:2024年实现CPO技术突破,可将AI模型训练时间从3个月缩短至3周,能耗降低5倍多。
    • 英特尔、AMD、思科:近年均在OFC展上推出CPO原型机,展现技术实力。

结论

CPO技术无疑为英伟达提供了突破散热和连接问题的技术解药,但其量产仍需时间。尽管台积电董事长魏哲家表示CPO已有初步成果,但要达到量产阶段仍需1年甚至1年半以上时间。供应链也透露,量产难度较大,设备供应紧张且良率有待提升。

:thinking: 英伟达能否借助CPO技术续写“算力霸主”的辉煌,还需经历时间的考验。

:light_bulb: 延伸阅读
原文链接

为什么需要从铜缆转向CPO?

  1. 数据中心需求变化
  • 数据传输速率要求越来越高
  • 功耗控制越来越重要
  • 数据密度不断提升
  1. CPO的优势
  • 更高带宽:光信号传输容量大
  • 更低功耗:光信号传输损耗小
  • 更长距离:光信号衰减慢
  • 更少干扰:不受电磁干扰影响
  • 更高密度:可以实现更密集的互连