深入解析大型语言模型扩展范式:思维链作者Jason Wei详述下一词预测与强化学习在LLM中的应用

一、Jason Wei 的背景与贡献
关注 AI 领域的人对 Jason Wei 这个名字一定不陌生。他是 OpenAI 的一位资深研究科学家,经常在 OpenAI 的发布活动中露面。作为思维链概念开山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者,他的工作使这一技术广为人知。Jason Wei 在谷歌期间推广了思维链提示概念,并共同领导了指令微调的早期工作。2023 年初,他加入了 OpenAI,参与了 ChatGPT 和其他重大项目。

二、演讲概要
去年 11 月 20 日,Jason Wei 在宾夕法尼亚大学计算机与信息科学系 Mayur Naik 教授的「CIS 7000:大型语言模型(2024 秋季)」课程中进行了约 40 分钟的客座讲座,主题为「大型语言模型的扩展范式」。演讲涵盖了扩展的定义及其重要性、下一词预测和基于思维链扩展强化学习等主题。

三、扩展的定义与重要性
扩展一般是指通过增加模型规模、数据量和 GPU 数量来持续改进 AI 能力。Jason Wei 给出了一个更具体的定义:扩展是将自己置于一个可以沿着连续轴移动并期望获得持续改进的情况下。尽管扩展需要克服技术和心理挑战,但它仍然是 AI 进步的关键引擎。

四、扩展范式一:下一词预测
下一词预测是一个大规模多任务学习过程。通过预测下一词,模型可以学习语法、世界知识、情感分析、翻译等多种能力。虽然仅靠下一词预测可能难以实现 AGI,但它是目前最有效的扩展方法之一。

五、扩展范式二:基于思维链扩展强化学习
纯粹的下一词预测在处理复杂任务时存在局限性。思维链(CoT)让模型能够像人类一样展示推理过程。OpenAI 通过强化学习优化了模型的思维链能力,使其能更好地解决复杂问题。这种方法特别适用于需要大量思考的任务,如竞赛数学或编程。

六、AI 文化的变革
研究重点从改进算法转向改进数据质量。基准测试被「饱和」的速度太快,导致需要更大的团队合作来推进 AI 发展。智能和用户体验是两个可以分别改进的维度。未来展望包括 AI 在科学和医疗健康方面的应用前景、提高事实准确性、发展多模态 AI 能力、增强工具使用能力以及扩大 AI 应用范围。

七、未来展望
Jason Wei 强调,尽管 AI 在过去五年取得了巨大进步,但通过持续扩展,未来五年还会有更大的发展空间。他用「just keep scaling」(继续扩展)作为演讲的结束语,表达了对扩展策略的信心。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...