激光网
当前位置: 首页 > 光粒网 > 软件 > 正文

微软研究人员推出CodeOcean和WaveCoder:开创代码语言模型指令调优的未来

2024-01-02 12:00:31  来源:激光网原创    

微软的研究人员引入了一种新的方法,可以从开源代码中生成多样化的高质量指令数据,从而提高指令调优的有效性和微调模型的泛化能力。因此,它解决了指令数据生成中的挑战,例如重复数据和对数据质量的控制不足。所提出的方法涉及将指令数据分类为四个通用的与代码相关的任务,并引入了一种基于语言模型的生成器-判别器数据处理框架,称为CodeOcean。

研究人员提出了CodeOcean,这是一个由20000个指令实例组成的数据集,涉及四个与代码相关的任务:代码摘要,代码生成,代码转换和代码修复。目标是通过指令调优来增强代码 LLM 的性能。本研究还介绍了 WaveCoder,这是一种经过微调的 Code LLM,具有广泛且通用的增强指令调优功能。WaveCoder旨在增强代码LLM的指令调优,与其他开源模型相比,在相同的微调规模下,在不同的代码相关任务中表现出卓越的泛化能力。

它建立在大型语言模型的最新进展之上,强调了指令调优在提高一系列任务的模型能力方面的巨大潜力。指令调优已被证明可以有效地增强 LLM 在各种任务中的泛化能力,如 FLAN、ExT5 和 FLANT5 等研究所示。该研究引入了对齐的概念,其中预训练的模型从自监督任务中学习,可以理解文本输入。指令调优提供指令级任务,允许预训练模型从指令中提取更多信息,并增强其与用户的交互能力。

现有的教学数据生成方法,包括自我指导和教育指导,依赖于教师法学硕士的表现,并可能产生重复的数据。所提出的LLM Generator-Discriminator框架利用源代码,在生成过程中明确控制数据质量。该方法以原始代码为输入,选择核心数据集,同时通过调整原始代码分布来控制数据多样性,从而生成更真实的指令数据。

该研究将指令实例分为四个与代码相关的任务,并优化指令数据以创建 CodeOcean。作者介绍了WaveCoder模型,使用CodeOcean进行了微调,并展示了与其他开源模型相比更出色的泛化能力。WaveCoder在代码生成任务中表现出很高的效率,并为指令数据生成和微调模型做出了重大贡献,以提高代码相关任务的性能。

WaveCoder模型在各种基准测试中的表现始终优于其他模型,包括HumanEval、MBPP和HumanEvalPack。该研究强调了数据质量和多样性在指令调整过程中的重要性。WaveCoder的性能在代码生成、修复和总结任务中进行了评估,展示了其在不同场景中的有效性。与CodeAlpaca数据集的对比,凸显了CodeOcean在提炼指令数据和增强基础模型指令跟踪能力方面的优势。

综上所述,该研究引入了多任务指令数据方法、CodeOcean和WaveCoder模型来增强Code LLM的泛化能力。所提出的LLM生成器-判别器框架被证明可以有效地生成逼真的、多样化的指令数据,有助于提高各种代码相关任务的性能。未来的工作可能会探索不同任务和更大数据集之间的相互作用,以进一步提高单任务性能和泛化能力。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com