OpenAI与GPT-4o：《Her》项目的挑战——探究实时音视频对话及RTC技术在法律纠纷中的影响

自从5月14日OpenAI展示了GPT-4o及其令人惊叹的端到端实时音视频对话功能以来，大众一直热切期盼其公开发布版本的到来。然而，两个月又两周过去了，这款备受期待的产品仍未面世。虽然官方演示中展现出了AI对话几乎与真人无异的能力，包括感知呼吸节奏、丰富的语气反馈以及即时打断AI等功能，但公众至今仍未体验到这一技术。究竟哪些因素阻碍了OpenAI的步伐？

一方面，OpenAI面临着法律纠纷的压力，必须确保语音音色不会引发类似斯佳丽·约翰逊那样的争议；另一方面，安全性和防止潜在的诈骗行为也是重要考量。除此之外，还有一些技术挑战需要克服。在演示过程中，细心观察的人可能会注意到，所使用的手机连接了网线。这意味着，为了达到演示中的流畅度，GPT-4o需要依赖“固定网络、固定设备、固定物理环境”。因此，当产品真正面向全球用户时，能否保持发布会级别的体验，成为一个未知数。

演示中的另一个细节显示，研究者Barret Zoph在视频通话时曾被ChatGPT误认为是桌子，这也揭示了视频通话存在一定的延迟问题。考虑到许多用户会在网络不稳定或嘈杂的环境中使用这项技术，例如户外、机场、车站等人流量大的地方，这无疑增加了技术实现的难度。此外，噪声对语音识别的影响也是一个不容忽视的问题，可能会导致AI的回答偏离预期。

另一个挑战在于多设备兼容性。目前展示的设备主要为新款iPhone Pro，而是否能够在低端机型上实现同样的体验，还有待验证。为了实现低延迟、多设备兼容及应对各种网络条件和环境噪声，不仅需要强大的AI支持，还需要依赖于实时通信（RTC）技术。该技术在AI时代之前就已经在直播和视频会议等领域得到了广泛应用和发展。为了实现真正的实时对话，每个环节都需要进行精心优化，包括信号采集与预处理、语音编码与压缩、网络传输、语音解码与还原等。

OpenAI并未独自面对这些挑战，而是选择了与开源RTC供应商LiveKit合作。LiveKit因支持ChatGPT语音模式而受到广泛关注，并且与多家AI公司建立了合作关系。在国内，众多AI企业也在积极研发端到端多模态大模型及AI实时音视频对话应用。据声网透露，当前技术水平已能将对话延迟控制在大约1秒之内，进一步优化后有望实现更加流畅的对话体验。

本文来源：