标签:Llama 3 8B Instruct
OpenAI-o1思考替代法热度攀升!焦剑涛高徒一作提出思考偏好优化,利用大语言模型如Llama 3 8B Instruct与AlpacaEval,拓展推理任务边界——天浩吴的创新研究
OpenAI-o1思考替代法引发关注,华人学者提出思考偏好优化方法 近期,一项新的研究引起了广泛关注,该研究提出了一种名为“思考偏好优化”(Thought Preference Optimization, TPO)的方法,旨在使大型语言模型(LLM)能够根据任务的复杂度进行不同程度的“思考”,从而提高其输出质量。这一方法不仅适用于逻辑和数学推理任务,还能应用于一般的问答场景。 研究背景与意义 这项研究由华人学者Tianhao Wu及其导师焦剑涛等人共同完成。焦剑涛曾是2011年清华大学特等奖学金获得者。研究团队提出了一种新的训练方法,通过在模型中...