OpenAI 推出 GPT-4O 高级语音模式 初步体验分享
智东西7月31日最新报道,OpenAI近日宣布已开始向一部分ChatGPT Plus用户推送期待已久的高级语音模式。该功能基于GPT-4O,能够提供更为流畅自然的实时对话体验,支持用户随时中断对话以及识别并响应用户的情感变化。
高级语音模式初探:安全与创新并行
该模式自去年9月首次亮相以来,经历了一系列升级和完善。今年5月,OpenAI推出了基于GPT-4O的增强版语音对话功能,并进行了公开演示。此次演示展示了语音功能的显著提升,包括更低的延迟、更丰富的交互形式,如通过视频理解数学问题、根据面部表情和语气识别情绪等。
OpenAI强调,自从首次发布以来,他们一直在努力提高语音对话的安全性和质量。为此,该公司与来自45种不同语言背景的100多名外部专家合作,共同测试语音功能。为了确保用户的隐私安全,OpenAI在训练模型时仅使用了四种预设的声音,并建立了一套机制来过滤不合适的输出,同时还采取了措施防止涉及暴力或侵犯版权的内容出现。
第一波用户体验反馈:多样互动与安全限制
首批体验者已经迫不及待地尝试了这项新功能,并分享了自己的体验。从艺术家Manuel Sainsily与ChatGPT讨论如何照顾新养的小猫,到网友Bergara练习法语发音,再到Squad联合创始人Ethan Sutin让ChatGPT模仿猫叫声,这些互动不仅展现了ChatGPT在语音对话方面的灵活性和适应性,同时也揭示了一些限制条件的存在。
值得注意的是,ChatGPT在面对某些特定请求时会拒绝服务,如唱歌或模仿特定人物的声音,这可能是因为OpenAI为确保内容安全而采取的措施。此外,ChatGPT在模拟不同情绪状态时的表现也令人印象深刻,无论是害羞、生气还是悲伤,都能够准确传达相应的情感色彩。
展望未来:持续迭代与安全承诺
OpenAI计划逐步扩大高级语音模式的使用范围,预计在今年秋季能让所有ChatGPT Plus订阅用户享受到这一功能。同时,该公司将在8月初发布一份详细的报告,涵盖GPT-4O的功能、局限性及安全评估等方面的内容。这些举措旨在向用户和社会各界证明OpenAI对于AI安全性的高度重视。
本文来源: 智东西【阅读原文】