当前位置：首页 > 光粒网 > 软件 > 正文

微软研究人员推出CodeOcean和WaveCoder：开创代码语言模型指令调优的未来

2024-01-02 12:00:31　来源：激光网原创　

微软的研究人员引入了一种新的方法，可以从开源代码中生成多样化的高质量指令数据，从而提高指令调优的有效性和微调模型的泛化能力。因此，它解决了指令数据生成中的挑战，例如重复数据和对数据质量的控制不足。所提出的方法涉及将指令数据分类为四个通用的与代码相关的任务，并引入了一种基于语言模型的生成器-判别器数据处理框架，称为CodeOcean。

研究人员提出了CodeOcean，这是一个由20000个指令实例组成的数据集，涉及四个与代码相关的任务：代码摘要，代码生成，代码转换和代码修复。目标是通过指令调优来增强代码 LLM 的性能。本研究还介绍了 WaveCoder，这是一种经过微调的 Code LLM，具有广泛且通用的增强指令调优功能。WaveCoder旨在增强代码LLM的指令调优，与其他开源模型相比，在相同的微调规模下，在不同的代码相关任务中表现出卓越的泛化能力。

它建立在大型语言模型的最新进展之上，强调了指令调优在提高一系列任务的模型能力方面的巨大潜力。指令调优已被证明可以有效地增强 LLM 在各种任务中的泛化能力，如 FLAN、ExT5 和 FLANT5 等研究所示。该研究引入了对齐的概念，其中预训练的模型从自监督任务中学习，可以理解文本输入。指令调优提供指令级任务，允许预训练模型从指令中提取更多信息，并增强其与用户的交互能力。

现有的教学数据生成方法，包括自我指导和教育指导，依赖于教师法学硕士的表现，并可能产生重复的数据。所提出的LLM Generator-Discriminator框架利用源代码，在生成过程中明确控制数据质量。该方法以原始代码为输入，选择核心数据集，同时通过调整原始代码分布来控制数据多样性，从而生成更真实的指令数据。

该研究将指令实例分为四个与代码相关的任务，并优化指令数据以创建 CodeOcean。作者介绍了WaveCoder模型，使用CodeOcean进行了微调，并展示了与其他开源模型相比更出色的泛化能力。WaveCoder在代码生成任务中表现出很高的效率，并为指令数据生成和微调模型做出了重大贡献，以提高代码相关任务的性能。

WaveCoder模型在各种基准测试中的表现始终优于其他模型，包括HumanEval、MBPP和HumanEvalPack。该研究强调了数据质量和多样性在指令调整过程中的重要性。WaveCoder的性能在代码生成、修复和总结任务中进行了评估，展示了其在不同场景中的有效性。与CodeAlpaca数据集的对比，凸显了CodeOcean在提炼指令数据和增强基础模型指令跟踪能力方面的优势。

综上所述，该研究引入了多任务指令数据方法、CodeOcean和WaveCoder模型来增强Code LLM的泛化能力。所提出的LLM生成器-判别器框架被证明可以有效地生成逼真的、多样化的指令数据，有助于提高各种代码相关任务的性能。未来的工作可能会探索不同任务和更大数据集之间的相互作用，以进一步提高单任务性能和泛化能力。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com

微软研究人员推出CodeOcean和WaveCoder：开创代码语言模型指令调优的未来

相关阅读RELEVANT

榜单

今日推荐

企业快讯