自从5月14日OpenAI展示了GPT-4o及其令人惊叹的端到端实时音视频对话功能以来,大众一直热切期盼其公开发布版本的到来。然而,两个月又两周过去了,这款备受期待的产品仍未面世。虽然官方演示中展现出了AI对话几乎与真人无异的能力,包括感知呼吸节奏、丰富的语气反馈以及即时打断AI等功能,但公众至今仍未体验到这一技术。究竟哪些因素阻碍了OpenAI的步伐?
一方面,OpenAI面临着法律纠纷的压力,必须确保语音音色不会引发类似斯佳丽·约翰逊那样的争议;另一方面,安全性和防止潜在的诈骗行为也是重要考量。除此之外,还有一些技术挑战需要克服。在演示过程中,细心观察的人可能会注意到,所使用的手机连接了网线。这意味着,为了达到演示中的流畅度,GPT-4o需要依赖“固定网络、固定设备、固定物理环境”。因此,当产品真正面向全球用户时,能否保持发布会级别的体验,成为一个未知数。
演示中的另一个细节显示,研究者Barret Zoph在视频通话时曾被ChatGPT误认为是桌子,这也揭示了视频通话存在一定的延迟问题。考虑到许多用户会在网络不稳定或嘈杂的环境中使用这项技术,例如户外、机场、车站等人流量大的地方,这无疑增加了技术实现的难度。此外,噪声对语音识别的影响也是一个不容忽视的问题,可能会导致AI的回答偏离预期。
另一个挑战在于多设备兼容性。目前展示的设备主要为新款iPhone Pro,而是否能够在低端机型上实现同样的体验,还有待验证。为了实现低延迟、多设备兼容及应对各种网络条件和环境噪声,不仅需要强大的AI支持,还需要依赖于实时通信(RTC)技术。该技术在AI时代之前就已经在直播和视频会议等领域得到了广泛应用和发展。为了实现真正的实时对话,每个环节都需要进行精心优化,包括信号采集与预处理、语音编码与压缩、网络传输、语音解码与还原等。
OpenAI并未独自面对这些挑战,而是选择了与开源RTC供应商LiveKit合作。LiveKit因支持ChatGPT语音模式而受到广泛关注,并且与多家AI公司建立了合作关系。在国内,众多AI企业也在积极研发端到端多模态大模型及AI实时音视频对话应用。据声网透露,当前技术水平已能将对话延迟控制在大约1秒之内,进一步优化后有望实现更加流畅的对话体验。
本文来源: 量子位【阅读原文】