豆包重磅更新!语音对话“更像人” AI应用端或迎来变革

:memo: 作者: 科创板日报 宋子乔| :date: 发布时间:2025-01-20 17:19:04

:microphone:豆包重磅更新!语音对话“更像人” AI应用端或将迎来变革

:memo:摘要

1月20日,豆包实时语音大模型正式推出,这是一款语音理解和生成一体化的模型,主要面向中文语境和场景。该模型在语音表现力、控制力、情绪承接方面表现惊艳,整体满意度评分为4.36,远超GPT-4o的3.18。豆包大模型的推出标志着国产AI软件的进步,有望为AI端侧硬件开辟更广阔的空间。

:open_book:正文

豆包实时语音大模型正式推出

1月20日,豆包实时语音大模型正式问世。这是一款语音理解和生成一体化的模型,实现了端到端语音对话。该模型主要面向中文语境和场景,虽然可进行英语对话,但暂不支持多语种。在中文范围内,模型也仅支持小部分方言和地方口音的理解和表达,仍有较大进步空间。

模型特性与优势

依托于语音和语义联合建模,该模型呈现出接近真人的语音表达水准。在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。

打败GPT-4o?

豆包实时语音大模型直接对标OpenAI的最新大模型GPT-4o。在外部真实众测中,豆包大模型的整体满意度较GPT-4o有明显优势,特别是在语音语气自然度和情绪饱满度方面。豆包模型在情感理解、情感承接以及情感表达等方面也取得显著进展,能较为准确地捕捉、回应人类情感信息。

满意度评分

  • 豆包实时语音大模型: 4.36(满分5分)
  • GPT-4o: 3.18

其中,50%的测试者对豆包实时语音大模型表现打出满分。

模型的技术实现

豆包大模型团队研发出了一套端到端框架,深度融合语音与文本模态。该框架面向语音生成和理解进行统一建模,最终实现多模态输入和输出效果。在预训练阶段,团队对各模态交织数据进行深入训练,精准捕捉并高效压缩海量语音信息。通过Scaling,最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段,团队使用了高质量数据与RL算法,进一步提供模型高情商对话能力与安全性,并在“智商”与“情商”之间寻求平衡。

实时语音AI的价值

实时语音AI的价值体现在AI情感陪伴。豆包的语音大模型不仅能感受到你的情感,还自带情绪和情感,可以随时打断对话,互动更加拟人。真人级语音对话,能提供更为亲和的交互体验和情感价值,AI不再呈现冰冷的“人机感”,其考验的是AI的“人性化”程度,是人类迈向AGI(通用人工智能)的关键里程碑。

:bar_chart:结论

豆包在实时语音交互上的进步展现了国产AI软件的进步,有望为AI端侧硬件开辟更广阔的空间。目前AI产品呈现多模态趋势,浙商证券预计,2025年开始会涌现更多综合性多模态交互,将深度结合数据集、文本、音频、视频等实现更高维度的人机交互层级。广发证券表示,AI玩具赛道兼具教育与陪伴属性,是具有真实需求的AI硬件落地方向。

:rocket: 重点标的: 恒玄科技、中科蓝讯、乐鑫科技、星宸科技、瑞芯微、炬芯科技、全志科技
:teddy_bear: AI玩具赛道关注: 实丰文化、汤姆猫、奥飞娱乐、上海电影

:light_bulb: 延伸阅读
原文链接