在人工智能领域,OpenAI的最新模型GPT-4o以其高效能和低延迟引起了关注,尤其是在实时语音互动方面,达到了与人类对话相当的速度。然而,尽管发布会展示了令人惊叹的技术,但在产品落地过程中,诸如GPT-4o的实时音视频功能和视频多模态产品Sora的开放仍面临延迟。这种现象不仅困扰OpenAI,国内的类似项目也面临同样的问题。尽管实时语音被认为是AI商业化的重要路径,但现有的技术如Pi和Call Annie存在高延迟和情感理解不足的问题。新产品EVI通过引入语义空间理论来改进情感表达,但牺牲了响应时间。GPT-4o的多模态技术则显著降低了延迟,增强了情感智能。然而,从发布会到实际应用的转化过程中,许多产品仍然停留在“期货”状态,面临着工程实施的挑战。
实时语音交互技术的发展,如Character.ai的语音电话功能,预示着AI在人机互动、游戏、教育和翻译等领域有巨大潜力。然而,技术难题、监管压力和高昂的商业化成本构成了阻碍。其中,RTC(实时通信)技术是实现AI实时语音的关键,但需要解决网络环境不稳定、设备兼容性和音频处理等问题。OpenAI正在寻找工程师来克服这些挑战,表明RTC工程化的重要性。
本文来源: 快科技【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...