今天凌晨2点,OpenAI开启了第9天的技术分享直播,正式发布了O1模型的API,并对实时API进行了重大升级,支持WebRTC技术。新版O1模型API相比之前的预览版,思考成本降低了60%,并新增了高级视觉功能;GPT-4O的音频处理成本也降低了60%,而迷你版本的价格更是下降了10倍。同时,OpenAI还推出了一种全新的偏好微调方法,通过直接偏好优化算法,使大模型能够更好地理解和适应用户的偏好风格。
此次发布的O1模型API集成了多项新功能,包括函数调用、结构化输出、开发者消息以及推理工作量调整。函数调用功能允许模型根据输入数据自动调用相应的后端服务或外部API,从而实现复杂任务的自动化处理。结构化输出支持JSON格式的数据返回,确保输出结果的结构符合预期,便于后续解析和应用。开发者消息则是一种新的系统消息形式,给予开发者更大的控制权来指导模型的行为。推理工作量参数用于调整模型的思考时间,以平衡性能与准确性的关系。
在演示环节中,OpenAI展示了一个基于高级视觉功能的应用案例——错误表单检测。通过上传含有错误的文本表格图片,O1模型成功识别出其中的计算错误,并提供了详细的修正建议。此外,对于需要精确执行的任务,O1模型还可以通过内置函数库与后台服务器通信,获取最新的税率等信息,确保结果的准确性和时效性。
实时API的增强和支持WebRTC技术极大地简化了开发流程。WebRTC是一种专为互联网设计的实时通信技术,广泛应用于会议和低延迟视频流传输等领域。OpenAI在实时API中引入WebRTC支持,使得开发的AI应用能够自动适应互联网的变化,如调整比特率和回声消除,为实时语音应用带来更好的性能和稳定性。与之前的WebSockets集成相比,WebRTC支持显著简化了代码。使用WebSockets时,开发者需要处理200-250行代码来解决反压等问题,而采用WebRTC,仅需12行代码即可实现相同的功能。例如,在实时语音聊天应用中,WebRTC的使用使开发者能够更快地构建功能强大的应用程序,提高开发效率。在演示中,通过简单的HTML代码创建对等连接,实现了音频流的发送和接收,展示了WebRTC支持下的实时语音应用开发的便捷性。开发者只需关注应用逻辑,无需处理复杂的网络通信细节,大大降低了开发难度。此外,为了进一步方便开发者集成实时API,OpenAI推出了Python SDK支持,并大幅降低了价格。
偏好微调是一种与传统监督式微调不同的方法,采用成对样本比较学习的方式,使模型能够理解并适应特定应用场景中的细微差异。在实施偏好微调时,开发者需要准备一组包含两个不同版本回答的数据集,其中一个被认为是更优的选择。然后,将这些数据送入模型进行训练,使其学会区分好答案和坏答案之间的差异,并根据用户的反馈不断调整其行为准则。偏好微调特别适合那些对回答格式、语气或抽象特质(如友好度、创造力)有较高要求的应用场景。例如,在构建金融咨询聊天机器人时,开发团队不仅希望模型能够提供专业且准确的财务建议,还期望它能保持友好和易于理解的沟通方式。此时,可以利用偏好微调方法,向模型展示多种不同的对话示例,直到找到最理想的表达方式。这种方法能够显著改善模型的表现,特别是在涉及主观评价的任务上,如客户服务或个性化推荐系统。此外,偏好微调不仅限于文本生成任务,同样适用于其他类型的输出,如图像生成、代码补全等。通过对大量样例的学习,模型可以逐渐形成一套稳定的行为模式,以更好地满足用户需求。更重要的是,这种微调方式允许持续迭代和改进,随着更多高质量数据的积累,模型的表现也会不断提高。
目前,这些API已全面开放,更详细的可以在OpenAI开发论坛上查看。
本文来源: AIGC开放社区公众号【阅读原文】