豆包向推理算力又“砍了一刀”:新模型架构最高降本83%

:memo: 作者: 科创板日报 宋子乔| :date: 发布时间:2025-02-12 14:02:52

豆包大模型推出新架构,大幅降低推理成本

摘要

字节跳动旗下的豆包大模型团队近期推出了一种全新的稀疏模型架构——UltraMem,该架构能够在保证模型效果的前提下,将推理成本最高降低83%,推理速度提升2-6倍。这一创新成果已被顶级会议ICLR 2025接收,为大模型推理效率和扩展能力问题提供了全新解决方案。

正文

豆包概念股表现强劲

豆包概念股在午后大幅走强,其中汉得信息一度拉升封板,广和通、移远通信、润欣科技、博通集成等也纷纷大幅冲高。

UltraMem架构的创新点

UltraMem架构在保证模型效果的前提下,实现了以下突破:

  • 推理成本降低:与传统的MoE架构相比,UltraMem在推理成本上实现了**最高83%**的降低。
  • 推理速度提升:UltraMem的推理速度相比MoE架构提升了2-6倍
  • 保持模型效果:在降低推理成本和提升推理速度的同时,UltraMem还保持了模型的效果,确保了模型的准确性和可靠性。

解决大模型推理场景中的痛点

随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。现有的MoE和PKM架构各有局限性:

  • MoE架构:虽然有效减少了训练阶段的计算量,但在推理时由于访存急剧上升,推理延迟大幅增加。
  • PKM架构:虽然避免了访存瓶颈,但其效果差且扩展能力有限。

UltraMem架构参考了PKM的设计,但针对其缺陷进行了补充,实现了更高效的访存和更优质的检索,同时降低了显存和部署成本。

实验结果

豆包研究团队在151M、680M、1.6B三个不同规模的模型上进行了广泛的实验。实验结果表明,UltraMem在模型效果和推理速度方面均优于MoE和PKM架构,且在680M、1.6B模型上具有显著的效果优势。

结论

无论是训练端还是推理端,随着大模型厂商的成本降低,AI应用将在未来更加高效、易用。

  • 推理成本大幅降低:将为AI技术在更多领域的应用提供可能,特别是对于资源受限的场景,如边缘计算和移动设备等。
  • 用户体验优化:UltraMem架构的突破和推理速度的提升,将使AI应用如智能助手、自然语言处理等在实时应用中响应更迅速,交互更流畅,优化用户的使用体验,提高内容创作、日常办公等场景下的效率。

:light_bulb: 延伸阅读
原文链接