OpenAI开发者大会揭晓四大革新：实时API与视觉微调引领未来，提示词缓存技术降低50%输入token成本

10月2日的消息显示，OpenAI于美东时间10月1日在年度开发者大会DevDay上发布了一系列创新工具。这些新工具包括实时API、视觉微调、提示词缓存及模型蒸馏四大亮点，旨在帮助开发者降低模型成本、提升视觉理解能力和语音AI功能，并改善小模型的性能。

实时API（Realtime API）

在OpenAI DevDay大会上推出的实时API正处于公开测试的beta阶段。这一API能够构建低延迟、多模式对话体验，支持文本和音频作为输入与输出，并具备函数调用功能。音频功能由GPT-4o模型“gpt-4o-realtime-preview”支持，允许开发人员将任何文本或音频输入传递给GPT-4o，使其以文本、音频或二者结合的方式回应。这简化了构建语音助手和其他对话式AI工具的过程。在定价方面，文本输入tokens的费用为5美元/百万tokens，输出tokens为20美元/百万tokens；音频输入为100美元/百万tokens，输出则为200美元/百万tokens。

视觉微调（Vision Fine-Tuning）

OpenAI宣布其最新的大型语言模型GPT-4o引入了视觉微调功能。该功能使开发人员能够自定义模型以增强图像理解能力，适用于改进视觉搜索、自动驾驶汽车物体检测以及医学图像分析等场景。通过准备图像数据集并上传至OpenAI平台，只需100张图像即可显著提升GPT-4o的视觉任务表现。截至2024年10月31日，每天可免费使用100万tokens进行图像微调；之后，微调训练费用为每100万tokens 25美元，推理费用分别为每100万输入tokens 3.75美元和每100万输出tokens 15美元。

提示词缓存（Prompt Caching）

提示词缓存在此次DevDay大会上被视为最重要的更新之一。该功能通过重复使用最近处理过的输入tokens，帮助开发者降低成本并减少延迟。适用于最新版GPT-4o、GPT-4o mini、o1-preview及其微调版本。与未缓存的提示相比，缓存提示可享受50%的折扣及更快的处理速度。

模型蒸馏（Model Distillation）

OpenAI还推出了一款模型蒸馏产品，允许开发者在OpenAI平台上直接管理整个蒸馏流程。这一工作流程使得开发者能利用前沿模型（如o1-preview和GPT-4o）的输出来微调更具成本效益的小模型（如GPT-4o mini），从而使小公司也能享受尖端模型的功能而不必承受高昂的计算成本。例如，医疗技术领域的初创公司可通过训练紧凑模型来捕捉大型模型的诊断能力，以便在资源有限的环境中运行。

本文来源：