OpenAI为开发人员开启语音AI引擎时代：深入探讨ChatGPT与Twilio API的应用

近日，鞭牛士报道了OpenAI的一项重大举措。该公司宣布将向其他开发人员开放其语音AI引擎，这一引擎正是ChatGPT高级语音模式的核心技术。这意味着开发人员现在可以实时访问这项技术，使AI能够理解和处理语音命令，并在类似通话的场景中进行语音交流。

此前，实现这一功能需要经过三个步骤：首先将音频转换为文本，然后通过生成的文本模型得出答案，最后再使用独立的文本转语音模型。现在，OpenAI简化了这一过程，为开发对话式语音界面的人工智能应用提供了便利。这一新功能是在OpenAI于旧金山举办的DevDay活动中宣布的几项更新之一。

健康和健身应用Healthify以及语言学习应用Speak成为了该功能的首批测试者。此外，OpenAI还推出了基于图片微调模型的新功能。在演示过程中，OpenAI高管展示了如何将新的音频功能与Twilio的API相结合，从而让AI助手拨打虚拟糖果店电话并订购400个巧克力草莓。

在另一个定制演示中，展示了一个与AI系统对话的例子，帮助用户找到本地产品，例如草莓。随后，AI会根据用户的指示拨打电话给商家订购草莓，并接受关于订购数量和预算的具体指示。

OpenAI强调，任何使用这项技术的人都必须明确告知对方这是人工智能而非真人，并且目前只向开发人员提供六种预设声音。尽管这些声音不会带有任何水印，但开发人员必须遵守公司的服务条款，禁止使用该系统发送垃圾邮件或误导用户。

这些最新公告正值ChatGPT制造商的一系列新闻之中，包括正在进行的大规模融资活动以及上周首席技术官Mira Murati和其他两名高管的离职。

本文来源：

iFeng科技【阅读原文】

文章版权归作者所有，未经允许请勿转载。

394

428

311

491

586

202

暂无评论

您必须登录才能参与评论！

暂无评论...