[开源证券]通信行业点评报告：字节发布豆包实时语音模型，重视AI产业链

yfc · 2025 年1 月 21 日 00:07

作者：蒋颖,雷星宇| 发布时间：Tue, 21 Jan 2025 00:00:00 GMT

通信行业点评报告：字节发布豆包实时语音模型，重视AI产业链

摘要

2025年1月20日，字节跳动发布了一款名为豆包实时语音大模型的创新产品。该模型在语音表现力、控制力、情绪承接方面表现优异，具备低时延和对话中可随时打断等特性。模型架构支持多模态输入输出，涌现出较强的声音控制和声音扮演能力。ToB和ToC端大模型齐飞，建议重视字节跳动等相关产业链投资机会。

正文

字节发布豆包实时语音大模型

2025年1月20日，字节跳动发布了豆包实时语音大模型，这是一款语音理解和生成一体化的模型，实现了端到端的语音对话。相比传统级联模式，该模型在语音表现力、控制力、情绪承接方面表现较强，并具备低时延、对话中可随时打断等特性。

在数据收集中，团队筛选并整理了大量包含丰富情感的语音数据，涵盖各种场景与情绪状态。在预训练阶段，团队对各模态交织数据进行深入训练，精准捕捉并高效压缩海量语音信息。通过Scaling，最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段，团队使用了高质量数据与RL算法，进一步提供模型高情商对话能力与安全性，并使大模型同时兼具“智商”与“情商”。

架构支持多模态输入输出，涌现出较强声音控制、声音扮演等能力

在架构方面，豆包团队研发了端到端框架，深度融合语音与文本模态。该框架面向语音生成和理解进行统一联合建模，实现多模态输入和输出效果，涵盖S2S（语音到语音）、S2T（语音到文本）、T2S（文本到语音）、T2T（文本到文本）等多种模式。

模型涌现多种能力：

声音控制：模型不仅能依照基础指令输出，还可遵循丰富的复杂指令。
声音扮演：目前模型部分方言和口音，主要源自于预训练阶段数据泛化，而非针对性训练。

此外，模型支持实时联网功能，能够根据问题，动态获取最新信息，问题回答时效性强。从测评结果来看，豆包实时语音大模型在情绪理解和情感表达方面优势明显。整体满意度方面，豆包实时语音大模型评分为4.36，GPT-4o为3.18，豆包模型表现更优。

ToB和ToC端大模型齐飞，重视字节跳动等相关产业链投资机会

ToB和ToC端大模型齐飞，建议重视国产算力产业链：

国产算力芯片
- 推荐标的：中兴通讯
- 受益标的：寒武纪、海光信息等
字节/阿里/腾讯/百度等AIDC供应商
- 推荐标的：润泽科技、宝信软件
- 受益标的：光环新网、世纪互联、大位科技、东方国信、云赛智联、奥飞数据、万国数据、科华数据等
液冷
- 推荐标的：英维克
- 受益标的：申菱环境、同飞股份、网宿科技、科华数据、高澜股份、申菱环境、依米康、飞荣达等
服务器电源
- 受益标的：欧陆通、麦格米特等
柴油发电机
- 受益标的：科泰电源、潍柴重机等
变压器
- 受益标的：金盘科技等
铜连接
- 受益标的：博创科技、瑞可达、华丰科技、沃尔核材、鼎通科技、神宇股份等
交换机及芯片
- 推荐标的：中兴通讯、盛科通信、紫光股份
- 受益标的：锐捷网络等
服务器
- 推荐标的：中兴通讯、紫光股份
- 受益标的：浪潮信息、华勤技术、烽火通信
光通信
- 推荐标的：中际旭创、新易盛、天孚通信、中天科技、亨通光电
- 受益标的：华工科技、光迅科技、长光华芯、源杰科技等
通信模组
- 推荐标的：广和通
- 受益标的：移远通信、美格智能、华测导航等

结论

字节跳动的豆包实时语音大模型在语音理解和生成方面表现出色，具备多模态输入输出能力，且在情绪理解和情感表达方面评分优于GPT-4o。建议投资者关注字节跳动及相关产业链的投资机会，特别是国产算力芯片、AIDC供应商、液冷、服务器电源等领域。

风险提示

AI及云计算发展不及预期
机柜上架不及预期
行业竞争加剧

延伸阅读
研报PDF原文链接

Dao · 2025 年1 月 21 日 00:09

这个结果不错啊。

话题	回复	浏览量
字节发布豆包实时语音模型国内AI应用有望迎井喷式发展 A股题材逻辑	5	2025 年1 月 21 日
[开源证券]通信行业点评报告：字节Force原动力大会亮点：豆包大模型1.6发布、多模态模型升级、Tokens加速增长、多行业落地热门研报	3	2025 年6 月 11 日
豆包重磅更新！语音对话“更像人” AI应用端或迎来变革 A股题材逻辑	8	2025 年1 月 20 日
“让AI拥有操作系统级权限！” 字节跳动携手中兴通讯试水AI手机 A股题材逻辑	4	2025 年12 月 2 日
字节搅动端侧AI风云！豆包发布手机助手预览版又一轮换机潮可期？ A股题材逻辑	3	2025 年12 月 1 日