近日,鞭牛士报道了OpenAI的一项重大举措。该公司宣布将向其他开发人员开放其语音AI引擎,这一引擎正是ChatGPT高级语音模式的核心技术。这意味着开发人员现在可以实时访问这项技术,使AI能够理解和处理语音命令,并在类似通话的场景中进行语音交流。
此前,实现这一功能需要经过三个步骤:首先将音频转换为文本,然后通过生成的文本模型得出答案,最后再使用独立的文本转语音模型。现在,OpenAI简化了这一过程,为开发对话式语音界面的人工智能应用提供了便利。这一新功能是在OpenAI于旧金山举办的DevDay活动中宣布的几项更新之一。
健康和健身应用Healthify以及语言学习应用Speak成为了该功能的首批测试者。此外,OpenAI还推出了基于图片微调模型的新功能。在演示过程中,OpenAI高管展示了如何将新的音频功能与Twilio的API相结合,从而让AI助手拨打虚拟糖果店电话并订购400个巧克力草莓。
在另一个定制演示中,展示了一个与AI系统对话的例子,帮助用户找到本地产品,例如草莓。随后,AI会根据用户的指示拨打电话给商家订购草莓,并接受关于订购数量和预算的具体指示。
OpenAI强调,任何使用这项技术的人都必须明确告知对方这是人工智能而非真人,并且目前只向开发人员提供六种预设声音。尽管这些声音不会带有任何水印,但开发人员必须遵守公司的服务条款,禁止使用该系统发送垃圾邮件或误导用户。
这些最新公告正值ChatGPT制造商的一系列新闻之中,包括正在进行的大规模融资活动以及上周首席技术官Mira Murati和其他两名高管的离职。
本文来源: iFeng科技【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...