[开源证券]通信行业点评报告:字节发布豆包实时语音模型,重视AI产业链

:memo: 作者: 蒋颖,雷星宇| :date: 发布时间:Tue, 21 Jan 2025 00:00:00 GMT

通信行业点评报告:字节发布豆包实时语音模型,重视AI产业链

摘要

2025年1月20日,字节跳动发布了一款名为豆包实时语音大模型的创新产品。该模型在语音表现力、控制力、情绪承接方面表现优异,具备低时延和对话中可随时打断等特性。模型架构支持多模态输入输出,涌现出较强的声音控制和声音扮演能力。ToB和ToC端大模型齐飞,建议重视字节跳动等相关产业链投资机会。

正文

字节发布豆包实时语音大模型

2025年1月20日,字节跳动发布了豆包实时语音大模型,这是一款语音理解和生成一体化的模型,实现了端到端的语音对话。相比传统级联模式,该模型在语音表现力、控制力、情绪承接方面表现较强,并具备低时延对话中可随时打断等特性。

在数据收集中,团队筛选并整理了大量包含丰富情感的语音数据,涵盖各种场景与情绪状态。在预训练阶段,团队对各模态交织数据进行深入训练,精准捕捉并高效压缩海量语音信息。通过Scaling,最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段,团队使用了高质量数据与RL算法,进一步提供模型高情商对话能力与安全性,并使大模型同时兼具“智商”与“情商”。

架构支持多模态输入输出,涌现出较强声音控制、声音扮演等能力

在架构方面,豆包团队研发了端到端框架,深度融合语音与文本模态。该框架面向语音生成和理解进行统一联合建模,实现多模态输入和输出效果,涵盖S2S(语音到语音)、S2T(语音到文本)、T2S(文本到语音)、T2T(文本到文本)等多种模式。

模型涌现多种能力:

  • 声音控制:模型不仅能依照基础指令输出,还可遵循丰富的复杂指令。
  • 声音扮演:目前模型部分方言和口音,主要源自于预训练阶段数据泛化,而非针对性训练。

此外,模型支持实时联网功能,能够根据问题,动态获取最新信息,问题回答时效性强。从测评结果来看,豆包实时语音大模型在情绪理解和情感表达方面优势明显。整体满意度方面,豆包实时语音大模型评分为4.36,GPT-4o为3.18,豆包模型表现更优。

ToB和ToC端大模型齐飞,重视字节跳动等相关产业链投资机会

ToB和ToC端大模型齐飞,建议重视国产算力产业链:

  1. 国产算力芯片

    • 推荐标的:中兴通讯
    • 受益标的:寒武纪、海光信息等
  2. 字节/阿里/腾讯/百度等AIDC供应商

    • 推荐标的:润泽科技、宝信软件
    • 受益标的:光环新网、世纪互联、大位科技、东方国信、云赛智联、奥飞数据、万国数据、科华数据等
  3. 液冷

    • 推荐标的:英维克
    • 受益标的:申菱环境、同飞股份、网宿科技、科华数据、高澜股份、申菱环境、依米康、飞荣达等
  4. 服务器电源

    • 受益标的:欧陆通、麦格米特等
  5. 柴油发电机

    • 受益标的:科泰电源、潍柴重机等
  6. 变压器

    • 受益标的:金盘科技等
  7. 铜连接

    • 受益标的:博创科技、瑞可达、华丰科技、沃尔核材、鼎通科技、神宇股份等
  8. 交换机及芯片

    • 推荐标的:中兴通讯、盛科通信、紫光股份
    • 受益标的:锐捷网络等
  9. 服务器

    • 推荐标的:中兴通讯、紫光股份
    • 受益标的:浪潮信息、华勤技术、烽火通信
  10. 光通信

    • 推荐标的:中际旭创、新易盛、天孚通信、中天科技、亨通光电
    • 受益标的:华工科技、光迅科技、长光华芯、源杰科技等
  11. 通信模组

    • 推荐标的:广和通
    • 受益标的:移远通信、美格智能、华测导航等

结论

字节跳动的豆包实时语音大模型在语音理解和生成方面表现出色,具备多模态输入输出能力,且在情绪理解和情感表达方面评分优于GPT-4o。建议投资者关注字节跳动及相关产业链的投资机会,特别是国产算力芯片、AIDC供应商、液冷、服务器电源等领域。

风险提示

  • AI及云计算发展不及预期
  • 机柜上架不及预期
  • 行业竞争加剧

:light_bulb: 延伸阅读
研报PDF原文链接

这个结果不错啊。