微软亚洲研究院前首席研究经理谭旭加盟月之暗面,专注研发类GPT-4o端到端语音模型

感谢IT之家网友HH_KK提供的线索!10月23日,据“晚点 Auto”报道,前微软亚洲研究院首席研究经理谭旭已于8月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。据报道,月之暗面的多模态研究从去年10月就开始了。知情人士透露,目前该公司有约10人的团队正在研发视频模型,为了确保产品的独特性,发布时间暂时被推迟。

资料显示,谭旭在离开微软研究院前担任首席研究经理,专注于生成式AI、语音/音频/视频生成领域,其研究成果被广泛引用,论文引用量达上万次。他还曾担任NeurIPS等学术会议期刊的审稿人。谭旭在微软期间,其多项语言、语音、音乐和视频生成技术已应用于Azure、Bing等微软的产品和服务中。加入月之暗面后,谭旭的主要目标之一可能是帮助公司打造类似于GPT-4o的语音体验。

GPT-4o是OpenAI在今年5月发布的多模态大模型,基于端到端语音技术,具备低延迟和随时打断的特点。9月25日,OpenAI向ChatGPT Plus付费用户推出了高级语音功能。传统的语音方案通常采用ASR(自动语音识别)+LLM(大语言模型)+TTS(语音合成)的方式:输入端将语音转换成文本,大模型处理生成新的文本,最后将文本合成为语音输出。然而,这种方案的缺点在于机器响应时间较长,且用户无法随时打断机器,与人类的自然对话体验存在差距。

相比之下,端到端语音技术省去了“语音转文字再转语音”的中间环节,能够显著缩短机器响应时间,并允许用户随时打断机器,提供更加自然的对话体验。此外,端到端技术还可以减少“幻觉”现象,用户可以即时打断输出并给出新的提示词,进一步提升用户体验。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...