标签：模仿学习

杨笛一团队的DITTO：大语言模型高效对齐新突破，模仿学习与在线比较数据强化技术仅需少量示例

在培养大语言模型（LLM）的过程中，模仿学习的概念可以被巧妙地应用。斯坦福大学的研究团队提出了名为DITTO的新框架，它利用少量的用户示范来引导LLM与特定用户偏好对齐，从而减少了大量比较数据的需求。DITTO通过默认用户更偏爱示范而非原始模型的输出，构建增强数据集，并使用对齐算法如DPO来更新模型。此外，DITTO还可视为一种在线模仿学习算法，能够超越专家表现。实验表明，DITTO在与传统方法如SFT相比时，表现出更高的效率和性能。DITTO的关键在于利用模型自身的输出和专家示范生成比较数据，通过迭代和重放比较数据的...

来源：

机器之心【阅读原文】
Tags：DITTO 在线比较数据大语言模型强化学习模仿学习

10个月前