2024年1月20日,字节跳动旗下的豆包团队发布了其最新的实时语音大模型——豆包实时语音大模型。这款模型在自然度、情感表达和实时性方面取得了显著突破,为用户带来了更加真实的语音对话体验。
语音理解和生成一体化,端到端对话更流畅
豆包实时语音大模型是一款集成了语音理解和生成功能的模型,实现了端到端的语音对话。相比传统的级联模式,该模型在语音表现力、控制力和情绪承接方面表现出色,具备低时延、对话中可随时打断等特性。这些特性使得模型在实际应用中更加灵活和高效,能够更好地满足用户在不同场景下的需求。
多模态输入输出,支持多种语音和文本转换模式
在架构方面,豆包团队研发了端到端的框架,深度融合语音与文本模态,面向语音生成和理解进行统一联合建模,实现多模态输入和输出效果。模型支持多种模式,包括语音到语音(S2S)、语音到文本(S2T)、文本到语音(T2S)和文本到文本(T2T)。此外,模型还具备强大的声音控制能力,不仅能依照基础指令输出,还可遵循复杂的指令,展现出较强的声音控制能力,并能模仿多种方言和口音。
实时联网功能,确保信息时效性
豆包实时语音大模型还支持实时联网功能,能够根据问题动态获取最新信息,确保问题回答的时效性。从测评结果来看,该模型在情绪理解和情感表达方面具有显著优势,整体满意度评分为4.36,高于GPT-4o的3.18分。目前,豆包App已全量上线全新的实时语音通话功能。
市场反应积极,多项成果相继推出
自2024年5月字节跳动正式发布豆包大模型以来,资本市场反应强烈,相关概念股表现活跃,股价普遍上涨。随后在半年多的时间里,豆包推出了多项成果,包括Doubao-pro、Seed-TTS、Seed-ASR、Seed-Music、视频生成模型和视觉理解模型等,显著提升了模型在语言能力、多模态理解与生成、模型推理和代码生成等方面的表现。
本文来源: 界面新闻【阅读原文】