作者: 叶泽佑,曾庆亮|
发布时间:Sun, 16 Feb 2025 00:00:00 GMT
通信专题报告:Deepseek引爆通信产业新机遇
摘要
DeepSeek通过创新算法和优化框架,显著降低了推理成本,推动了垂类AI小模型的发展。其技术突破不仅降低了开发成本,还提升了推理速度和显存利用率。此外,光模块等硬件需求也从训练转向推理,推动了分布式训练和边缘计算的普及。
正文
DeepSeek优化推理效率,降低成本
DeepSeek通过创新算法大幅优化推理效率,显著降低了应用成本。DeepSeek-V3的训练成本仅为2.788MH800GPU小时,支持FP8混合精度训练,并对训练框架进行了全面优化,实现了加速训练和降低GPU内存使用。通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,显著提高了训练效率并降低了训练成本。
DeepSeek每百万输入tokens成本为0.55美元,每百万输出tokens成本为2.19美元,相较于ChatGPT-O1模型,输入和输出成本均降低了96%。DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,在保持模型性能的同时,实现了高效的训练和推理,显著提高了推理速度和显存利用率。
垂类AI小模型的催化剂
DeepSeek从成本端和技术端对垂类AI小模型(AIAgent)带来了直接催化。
- 成本端:更低的推理成本降低了垂类AIAgent的开发成本,极大刺激了各行业的企业智能化需求。
- 技术端:DeepSeek在自然语言理解、多模态交互等底层技术上的突破,直接降低了垂直领域小模型的技术门槛。其开源的分布式训练框架等技术能够被小模型复用,同时模型知识蒸馏等压缩技术使小模型既能继承大模型能力,又保持轻量化特性。
对数据实时性敏感的垂类AIagent需要在感知端和云端快速传递数据,对低时延高带宽网络提出要求。此外,小模型下沉到中小企业,进一步带来了网络通信基础设施需求,对交换机、边缘计算设备、5G切片等硬件提出新需求。
光模块需求从训练转向推理
光模块等需求来源从训练转向推理,带来了多场景适配需求。
- 虽然单次训练任务的算力需求降低,但模型轻量化可能推动分布式训练和边缘计算的普及,导致数据中心内部短距连接需求从集中式超算集群转向更分散的节点间通信。
- 机架内光模块对于高密度计算仍需要低延迟、高带宽的互连,800G模块需求可能受分布式架构的推动。
- 在边缘场景,短距光模块在边缘服务器的部署比例可能上升,但单点用量低于传统超算中心。
此外,技术替代效应强于需求收缩,CPO的核心价值在于解决传统可插拔光模块的功耗和密度瓶颈。即使算力需求下降,但对于能效比、空间压缩和成本控制的需求仍可能驱动其渗透率提升。
结论
DeepSeek通过创新技术和优化框架,显著降低了推理成本,推动了垂类AI小模型的发展。其技术突破不仅降低了开发成本,还提升了推理速度和显存利用率。此外,光模块等硬件需求也从训练转向推理,推动了分布式训练和边缘计算的普及,进一步带动了通信基础设施的需求增长。
风险提示
- AI建设不及预期
- 上游资本开支不及预期等
延伸阅读
研报PDF原文链接