标签:蒙特卡洛树搜索
北交大开源O1-CODER项目:结合强化学习与蒙特卡洛树搜索,提供详尽源代码、精选数据集及衍生模型伪代码与测试用例生成器
北京交通大学的研究团队最近低调发布了一个名为 O1-CODER 的新项目,该项目专注于编码任务,并且所有源代码、精选数据集及衍生模型均已完全开源。研究团队认为,编码是一项需要深思熟虑、逻辑严谨、逐步解决问题的典型任务,属于 System-2 思维方式。为了提升模型的 System-2 能力,他们创新地将强化学习(RL)与蒙特卡洛树搜索(MCTS)相结合,使模型能够自动生成推理数据,从而不断提升其逻辑推理能力。 在实验中,研究团队得出了几个关键结论: - 当推理正确时,基于伪代码的推理显著提高了代码生成的质量。 - 将监督微...