Meta 推出自学评估器，利用思维链技术和强化学习打造自主AI智能体，优化AI模型工作评估

Meta 发布新 AI 模型，减少人类参与度
站长之家（ChinaZ.com）10 月 20 日报道：Facebook 母公司 Meta 近日发布了其研究部门的一系列新 AI 模型，其中包括一款名为「自学评估器」（Self-Taught Evaluator）的模型。这款模型有望大幅减少人类在 AI 开发过程中的参与度。此前，Meta 在 8 月份的一篇论文中详细介绍了这一工具，该论文阐述了如何利用类似于 OpenAI 最近发布的 o1 模型中的「思维链」技术，使模型能够对其输出进行可靠的评估。

「思维链」技术提升问题解决能力
「思维链」技术通过将复杂问题分解成更小的逻辑步骤，显著提升了在科学、编程和数学等领域的难题解决能力。Meta 的研究人员完全依靠 AI 生成的数据来训练这一评估器模型，彻底消除了对人工输入的需求。这种使用 AI 评估 AI 能力的方法，展示了未来实现自主 AI 智能体的可能性。Meta 的研究人员表示，这种智能体可以从自身的错误中学习，并逐步提高性能。

自主 AI 智能体的应用前景
许多 AI 领域的专家认为，这种自主的 AI 智能体可以作为高度智能的数字助手，在无需人类干预的情况下执行各种任务。自我改进的 AI 模型有望替代目前常用的昂贵且低效的基于人类反馈的强化学习（RLHF）方法。RLHF 方法需要具备专业知识的人类标注员来标记数据并验证复杂数学和写作问题的答案是否正确。项目研究员 Jason Weston 表示，他们希望随着 AI 技术的发展，AI 能够更好地检查自己的工作，最终超越普通人的表现。

其他公司的相关研究
除了 Meta，谷歌和 Anthropic 等公司也发布了关于基于 AI 反馈的强化学习（RLAIF）概念的研究。然而，与 Meta 不同的是，这些公司通常不会公开发布其模型供公众使用。Meta 在此次发布的其他 AI 工具中，还包括对公司图像识别模型 Segment Anything 的更新、一种加速大语言模型（LLM）响应生成时间的工具，以及一个用于发现新型无机材料的数据集。

本文来源：