豆包重磅更新！语音对话“更像人” AI应用端或迎来变革

yfc · 2025 年1 月 20 日 09:22

作者：科创板日报宋子乔| 发布时间：2025-01-20 17:19:04

豆包重磅更新！语音对话“更像人” AI应用端或将迎来变革

摘要

1月20日，豆包实时语音大模型正式推出，这是一款语音理解和生成一体化的模型，主要面向中文语境和场景。该模型在语音表现力、控制力、情绪承接方面表现惊艳，整体满意度评分为4.36，远超GPT-4o的3.18。豆包大模型的推出标志着国产AI软件的进步，有望为AI端侧硬件开辟更广阔的空间。

正文

豆包实时语音大模型正式推出

1月20日，豆包实时语音大模型正式问世。这是一款语音理解和生成一体化的模型，实现了端到端语音对话。该模型主要面向中文语境和场景，虽然可进行英语对话，但暂不支持多语种。在中文范围内，模型也仅支持小部分方言和地方口音的理解和表达，仍有较大进步空间。

模型特性与优势

依托于语音和语义联合建模，该模型呈现出接近真人的语音表达水准。在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。

打败GPT-4o？

豆包实时语音大模型直接对标OpenAI的最新大模型GPT-4o。在外部真实众测中，豆包大模型的整体满意度较GPT-4o有明显优势，特别是在语音语气自然度和情绪饱满度方面。豆包模型在情感理解、情感承接以及情感表达等方面也取得显著进展，能较为准确地捕捉、回应人类情感信息。

满意度评分

豆包实时语音大模型: 4.36（满分5分）
GPT-4o: 3.18

其中，50%的测试者对豆包实时语音大模型表现打出满分。

模型的技术实现

豆包大模型团队研发出了一套端到端框架，深度融合语音与文本模态。该框架面向语音生成和理解进行统一建模，最终实现多模态输入和输出效果。在预训练阶段，团队对各模态交织数据进行深入训练，精准捕捉并高效压缩海量语音信息。通过Scaling，最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段，团队使用了高质量数据与RL算法，进一步提供模型高情商对话能力与安全性，并在“智商”与“情商”之间寻求平衡。

实时语音AI的价值

实时语音AI的价值体现在AI情感陪伴。豆包的语音大模型不仅能感受到你的情感，还自带情绪和情感，可以随时打断对话，互动更加拟人。真人级语音对话，能提供更为亲和的交互体验和情感价值，AI不再呈现冰冷的“人机感”，其考验的是AI的“人性化”程度，是人类迈向AGI（通用人工智能）的关键里程碑。

结论

豆包在实时语音交互上的进步展现了国产AI软件的进步，有望为AI端侧硬件开辟更广阔的空间。目前AI产品呈现多模态趋势，浙商证券预计，2025年开始会涌现更多综合性多模态交互，将深度结合数据集、文本、音频、视频等实现更高维度的人机交互层级。广发证券表示，AI玩具赛道兼具教育与陪伴属性，是具有真实需求的AI硬件落地方向。

重点标的: 恒玄科技、中科蓝讯、乐鑫科技、星宸科技、瑞芯微、炬芯科技、全志科技
AI玩具赛道关注: 实丰文化、汤姆猫、奥飞娱乐、上海电影

延伸阅读
原文链接

话题		回复	浏览量
字节发布豆包实时语音模型国内AI应用有望迎井喷式发展 A股题材逻辑	0	7	2025 年1 月 21 日
[开源证券]通信行业点评报告：字节发布豆包实时语音模型，重视AI产业链 A股热门研报	1	21	2025 年1 月 21 日
AI玩具布局加速！多支豆包概念股业绩预喜 A股题材逻辑	0	8	2025 年1 月 23 日
字节搅动端侧AI风云！豆包发布手机助手预览版又一轮换机潮可期？ A股题材逻辑	0	9	2025 年12 月 1 日
AI厂商抢夺春节时间情感陪伴产品背负“破圈”期望？ A股题材逻辑	0	7	2025 年1 月 27 日