香港城市大学研究：大型语言模型的自我纠正——《Learning from Correctness》揭示推理步骤的新视角

本文介绍了香港城市大学与华为诺亚方舟实验室合作的一项研究成果。主要作者姚宇璇是香港城市大学计算机系的二年级博士生，专注于大模型的复杂推理和生成技术，导师为宋林琦教授。此外，华为诺亚方舟实验室的研究员吴涵和郭志江也参与了这项研究。

尽管大型语言模型（LLMs）在许多领域取得了显著进展，但依然存在产生幻觉、生成有害以及不遵循人类指令的问题。一种流行的解决方案是通过自我纠正机制来改进模型，即让模型能够自行检测并修正错误。然而，现有的一些自我纠正方法依赖于复杂的提示工程、人类反馈或外部工具，这些方法不仅繁琐且成本高昂。

为了解决这些问题，研究人员提出了一种名为 Learning from Correctness（LeCo）的新方法。LeCo 不需要复杂的提示工程或外部反馈，而是通过模型自动生成的推理步骤来进行自我纠正。其核心思想是：如果模型能够识别更多的正确推理步骤，则可以缩小搜索空间，从而更高效地找到完整的正确推理路径。

LeCo 通过计算每个推理步骤的置信度分数来评估其正确性。低分的推理步骤被视为潜在错误，而之前的步骤则被视为正确。通过将这些正确步骤附加到输入中，模型可以逐步接近正确的答案。这种方法不仅提高了推理准确性，还减少了 token 消耗和迭代次数。

为了找出正确的推理步骤，LeCo 设计了三种基于 logits 的评分方法：单步置信度、单步散度分数和步间转移分数。通过这些方法，LeCo 能够识别出大约 65% 的错误步骤。具体而言，单步置信度衡量每个步骤的平均 token 概率，单步散度分数衡量标记概率的分布均匀性，步间转移分数则衡量连续步骤之间的转换情况。

LeCo 方法分为两个阶段：初始阶段和反思阶段。初始阶段通过任何链式思考（CoT）方法生成一个初始解，然后进入反思阶段，计算每个推理步骤的置信度分数，并选择分数最低的步骤作为“犯错的第一步”。之前的步骤被视为正确，并作为输入继续推理。LeCo 在这两个阶段交替进行，直到达到停止条件。

实验结果显示，LeCo 在逻辑推理、常识推理和数学推理等任务中表现出色。它不仅提升了模型的性能，还减少了 token 消耗和迭代次数。人工分析表明，LeCo 能够较为准确地识别推理过程中的正确和错误步骤，但仍有一定的提升空间。

本文来源：