Cartesia发布低延迟语音生成模型Sonic 要复刻ChatGPT实时语音聊天?

Cartesia公司最近推出了其创新产品——Sonic,一款具有超低延迟的语音生成模型,引起了业界的广泛关注。Sonic模型的延迟时间仅为135毫秒,能够迅速生成具有丰富情感和表达力的语音。只需10秒钟的录音,它就能精确模仿说话者的语音特色,包括韵律、语调和声音特质。此外,Sonic允许用户调整音调、速度、情感等参数,以适应各种应用场景。

Sonic的特点在于它的超低延迟性能,使其成为实时聊天应用的理想选择。同时,它能够传达人类的情感,使对话更加生动自然。Cartesia通过引入“状态空间模型”(SSM)架构,解决了实时智能系统的延迟问题。这种架构能够高效处理各种模态信息,特别是在音频和视频等高分辨率数据上的实时处理。

Cartesia的创始人Albert和Karan经过四年的合作,开发出了SSM,这是一种更高效的AI建模方法。目前,Cartesia正在研发一个具有长期记忆的实时对话AI计算平台,该平台将解决复杂问题并提供全新用户体验。Sonic模型的推出,展示了SSM架构在提高生成效率和降低延迟方面的优势,相比于传统的Transformer模型,Sonic在多个指标上表现出色。

Sonic现在已经开放,提供了Web Playground和低延迟API。用户可以通过Playground使用多种语音库进行应用开发,适用于客户服务、娱乐和内容创作等领域,还可以通过API访问高级功能,如语音速度和情感的调整。

Cartesia的未来目标是在未来一年内实现原生多模态的实时智能,扩展到音频领域之外,致力于在任何模态上实现即时理解和生成,推动实时智能技术的前沿发展。

本文来源: 站长之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...