利用生成式AI与Agent Instruct:微软通过数据合成为大模型训练打造2500万对高质量数据集,显著增强模型性能与应用潜力!

随着ChatGPT和Copilot等生成式AI技术的迅速发展,对高质量训练数据的需求不断攀升,这已成为提升大型模型性能的重要因素之一。为了解决训练数据不足和质量低下的问题,微软研究院推出了一款名为Agent Instruct的AI代理工具,专门用于生成高质量的合成数据。相关论文已发布在《arXiv》上,详细介绍了这一创新技术。

为了克服传统合成数据存在的拟合性差和多样性不足等问题,Agent Instruct采用了一种全新的方法——“生成教学”(Generative Teaching)。这种方法通过多个智能体的协同工作,自动完成数据的转换、清洗和优化,最终合成出高质量的数据。Agent Instruct首先从各种原始数据源中收集“种子”,如教科书章节、网络文章和代码片段等。这些种子为后续的数据合成提供了丰富的信息基础。

接着,Content Transformation Agents智能体将这些原始数据转换成一种中间格式,以便于后续步骤中针对具体目标创建指令。例如,一个简单的文本段落可以被转换成论点段落、会议记录或API列表等。这样不仅使更有条理,还保留了原始材料的多样性和丰富性。

在种子指令创建过程中,Instruction Creation Agents智能体会进一步处理这些初步转换的,生成多样化的指令。这些指令可以要求模型执行特定任务,如修改文本、编写故事、解释概念或完成编码任务。目的是让模型在训练过程中接触到更多不同类型的任务,从而提高其综合能力。

为了进一步提升指令的质量和复杂性,研究人员引入了指令细化流程。通过Refinement Agents智能体对指令进行深入优化,确保每一条指令都能达到预期的效果。智能体首先提出各种改进方案,增加指令的复杂性、多样性和质量。例如,可以通过修改指令中的某些部分,使其更具挑战性,或者增加一些需要推理才能解决的问题。然后对改进后的方案进行进一步优化,确保语言表述清晰准确。整个过程会反复迭代,直至达到预期的合成数据质量和规模。

通过Agent Instruct,研究人员自动生成了2500万个高质量的合成数据集,涵盖文本编辑、创意写作、编程和阅读理解等领域。这些数据被用于训练和微调Mistral-7b模型,进而开发出了Orca-3模型。在一系列基准测试中,Orca-3的表现显著优于原版Mistral-7b-Instruct模型。例如,在AGIEval上提升了40%,在MMLU上提高了19%,在GSM8K上进步了54%,在BBH上提升了38%,在AlpacaEval上提升了45%。此外,Orca-3在多项指标上也超越了LLAMA-8B-instruct和GPT-3.5-turbo等其他模型。

本文来源: AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...