利用OpenAI o1动态思维链与反思技巧,通过语言强化学习和提示技术提升普通LLM的复杂推理能力

近日,一篇关于利用纯提示方法让普通大型语言模型(LLM)具备复杂推理能力的文章在推特上引起了广泛关注。九月份,OpenAI推出了全新的o1系列模型,该模型专攻复杂的推理任务,一经发布便在大模型竞技场上大放异彩。在数学、编程、科学等高难度任务中,o1的表现远超GPT-4和其他人类专家。然而,高昂的使用成本成为了其普及的一大障碍。o1-preview的每百万输入token费用为15美元,每百万输出token费用为60美元,而GPT-4分别为5美元和15美元。

为了应对这一问题,有人提出了利用开源代码和特定提示方法来增强普通LLM的推理能力。这种方法包括动态思维链(Dynamic Chain of Thoughts)、反思(Reflection)和语言强化学习(Verbal Reinforcement)。通过这些技术,GPT-4、Claude3.5Sonnet和Llama3.18B等模型在复杂问题上的表现得到了显著提升。在严格的学术基准测试中,经过“开挂”处理的Claude3.5Sonnet甚至超过了GPT-4,与o1打了个平手。

OpenAI o1的强大之处在于其推理模型的能力,这些能力对于AI的未来发展至关重要。如果给予更多的时间进行训练或推理,o1的性能还会进一步提升。那么,其他LLM是否也能通过类似的方法实现类似的提升呢?研究者们通过阅读相关论文,开发了一种新的提示范式,并通过实验验证了其效果。

以下是具体的提示示例:
“`
标签包围所有思考过程,探索多种角度和方法。
标签分解解决方案,明确每一步骤。
标签内使用标签,显示剩余步数预算。
根据需要请求更多步数预算,特别是对于复杂问题。
基于中间结果和反思,持续调整推理过程,适应进展。
使用标签定期评估进度,诚实地评价推理过程。
使用标签在每次反思后给出质量评分(0.0到1.0)。
0.8以上:继续当前方法
0.5-0.7:考虑微调
低于0.5:认真考虑回溯并尝试其他方法
不确定或评分低时,回溯并尝试不同方法,解释决策过程。
对于数学问题,使用LaTeX显示所有计算过程,并提供详细证明。
尽可能单独探索多种解决方案,并在反思中比较不同方法。
在标签中合成最终答案,提供清晰简洁的总结。
最后,进行全面反思,讨论解决方案的有效性、挑战和改进建议,并给出最终评分。
“`

这种组合框架创建了一个高度自适应和响应迅速的问题解决AI系统。通过动态思维链生成初始推理路径,再通过反思机制进行评估和完善,模型会在每个反思阶段获得奖励分数,指导未来的推理步骤。这种循环过程使模型能够迭代改进输出,适应不断变化的条件,并有效应对复杂的问题结构。

为了验证这种方法的效果,研究者创建了一个包含JEE Advanced和UPSC prelims问题的数据集。JEE Advanced是全球最难的本科入学考试之一,而UPSC公务员考试则是世界上竞争最激烈的考试之一。结果显示,动态思维链、反思和语言强化学习技术的应用显著提高了大多数模型的性能,尤其是Claude Sonnet和Llama3.18b。在满分48分的测试中,使用提示方法的Claude Sonnet得分最高(40分),在数学、物理和化学问题上表现出色。Llama3.18b(33分)和GPT-4(36分)也有了明显的提升。相比之下,不使用提示技术的o1得分为39分,虽然表现优秀,但经过“开挂”的Claude Sonnet仍然略胜一筹。

此外,研究者还对IMO2023和Putnam数学竞赛进行了测试。结果显示,使用提示技术的Claude3.5Sonnet在IMO2023中首次测试达到了50%,多次测试后甚至超过了o1。在Putnam竞赛中,Claude Sonnet3.5解决了14个问题,而o1模型解决了13个问题,GPT-4解决了9个问题。

总之,通过提示技术,我们可以利用较小的开源模型来替代昂贵的商业模型,解决需要复杂推理能力的任务。这种方法不仅降低了成本,还提升了模型的性能,为各个领域的应用提供了新的可能性。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...