云锁-微软用AI Agent生成2500万对高质量数据,极大提升大模型性能!
跟着ChatGPT、Copliot等生成式AI产品的快速迭代,对练习数据的需求呈指数级增长,一起也是提升大模型性能的关键环节之一。
为了处理练习数据缺少和质量差的难题,微软研究院发布了一个专门用于生成高质量组成数据的的AI Agent——Agent Instruct。
论文地址:https://arxiv.org/abs/2407.03502
图片
为了突破传统组成数据的拟合性、多元化性差等,AgentInstruct使用了一种立异性方法“生成教学”(Generative Teaching),并经过多种智能体一起协作主动完结数据转化、清洗、优化然后组成高质量数据。
AgentInstruct会先收集各种原始数据种子,云锁,例如,教科书章节、网络文章、代码片段等。这些种子作为后续数据组成的根底,为模型供给了丰富的信息来源。
然后经过Content Transformation Agents智能体将原始的种子资料转化成一种中心方式,这种方式简化了后续进程中针对具体方针创建指令的进程。
例如,一个简单的文本段落会被转化成一个观点段落、会议记录转录内容、API列表等。经过转化进程使得本来无结构的内容变得愈加有条理,一起也保留了原始资料的多样性和丰富性。
图片
在种子指令创建流程中,Instruction Creation Agents智能领会进一步处理这些经过开始转化的内容,创造出多样化的指令。
这些指令可所以要求模型履行某一特定使命的恳求,例如,修正一段文字、编写一个故事、解释一个概念或是完结一个编码使命。
图片
该阶段的方针是生成一系列具有挑战性且多样的使命,然后让模型在练习进程中接触到尽可能多的不同类型的使命。
为了进一步提指令的质量和复杂性,研究人员引入了指令细化流程,经过Refinement Agents智能体对指令进行深化的迭代优化,确保每一条指令都能够愈加精准地到达预期的数据作用。
图片
在细化的进程中,智能体首先提出各种可能的改进计划,旨在添加指令的复杂性、多样性和质量。例如,可能会提出修正指令中的某些部分,使得本来直接的问题变得愈加间接,或许添加一些需要模型进行推理才干得出答案的元素。
然后再对改进后的计划进行一步优化,并且在语言表述上坚持明晰和准确。智能领会细心审核每一条建议的可行性和作用,然后以一种合理的方式整合到指令中。整个流程会重复进行迭代、优化,直到到达预期的组成数据规划和质量水平。
研究人员经过Agent Instruct主动生成了2500万个配对的高质量组成数据集,包括文本编辑、构思写作、编程、阅读了解等。然后再用生成的数据对Mistral-7b模型进行了练习、微调,开发了Orca-3模型。
图片
在一系列基准测试中,Orca-3相比原来的Mistral-7b-Instruct的模型性能提升巨大。例如,在AGIEval上提升了40%,MMLU上提高了19%,GSM8K上进步了54%,BBH上提升了38%,AlpacaEval上提升了45%。一起,Orca-3在多项指标上也超越了LLAMA-8B-instruct和GPT-3.5-turbo等其他模型。