标签：Llama 3 8B Instruct

OpenAI-o1思考替代法热度攀升！焦剑涛高徒一作提出思考偏好优化，利用大语言模型如Llama 3 8B Instruct与AlpacaEval，拓展推理任务边界——天浩吴的创新研究

OpenAI-o1思考替代法引发关注，华人学者提出思考偏好优化方法近期，一项新的研究引起了广泛关注，该研究提出了一种名为“思考偏好优化”（Thought Preference Optimization, TPO）的方法，旨在使大型语言模型（LLM）能够根据任务的复杂度进行不同程度的“思考”，从而提高其输出质量。这一方法不仅适用于逻辑和数学推理任务，还能应用于一般的问答场景。研究背景与意义这项研究由华人学者Tianhao Wu及其导师焦剑涛等人共同完成。焦剑涛曾是2011年清华大学特等奖学金获得者。研究团队提出了一种新的训练方法，通过在模型中...

来源：

量子位【阅读原文】
Tags：AlpacaEval Llama 3 8B Instruct Tianhao Wu 大语言模型思考偏好优化

5个月前