当前位置：首页 > 光粒网 > 软件 > 正文

Google DeepMind推出串联转换器用于推理高效的大型语言模型LLM

2024-03-03 19:29:07　来源：激光网原创　

激光网3月3日消息，超大型语言模型继续面临重大的计算成本障碍，这阻碍了它们的广泛部署，即使推理优化方法已经取得了显着进步。在整个自回归生成过程中按顺序生成令牌是导致推理延迟高的主要原因。由于 ML 加速器是为矩阵-矩阵乘法而设计的，而不是 LLM 中常见的矩阵-向量运算，因此此限制阻止了它们被充分利用。因此，自回归答案创建远不如提示处理效率高，提示处理涉及同时处理所有标记。

然而，理解查询或预填充的能力和生成答案的能力的相对重要性仍然不清楚。完全依赖解码器的现代 LLM 设计将这两个活动绑定在一起。

谷歌研究院和DeepMind的一项新研究以效率为导向，探讨了这个基本问题。他们的研究提出了串联变压器，这是一种新设计，它使 NLU 在模型资源中所占的份额比 NLG 大得多。

研究人员实现了一个投影层，以使可能更高维的表示空间对齐。串联的实验表明，LLM的NLU与NLG部分所需的容量可以分离，从而在不明显降低精度的情况下实现更高效的设计。为了保持高精度，Tandem的主模型会刷新所有预填充表示，这与编码器-解码器架构形成鲜明对比，后者通过编码器处理查询/前缀，然后通过解码器生成整个响应。

他们建议将Tandem + SPEED用于希望输出与主模型无法区分的应用。推测解码框架使用 Tandem 小模型来创建草稿代币。然后，大型模型验证它们。与传统SPEED相比，Tandem的小型模型能够响应大型模型的表示，这极大地帮助了草稿质量，同时降低了验证开销。

由于Tandem是一个独立的模型，它可以产生可观的结果，而不需要通过大型模型进行验证。Tandem + SPEED还可以利用ML表示，同时自动回归生成令牌，从而在令牌质量和模型延迟之间实现更好的折衷。研究表明，logit 蒸馏有助于改进 SPEED 草稿模型训练。这种方法适用于蒸馏，并且是与之相辅相成的。串联 + 速度的经验结果。最后，他们广泛评估了 TPUv5e 在单机版和 SPEED 串联版中的延迟，其中 PaLM2-Bison 是主要的大型模型，PaLM2- Gecko 是次要的小型模型。研究人员发现，在保持相同输出质量的同时，蒸馏的Tandem + SPEED在各种数据集上的表现至少可以比基线PaLM2-Bison模型高出2.19倍。作为奖励，他们的模型比通常的 SPEED 快 1.11 到 1.17 倍，小型模型作为辅助模型。使用SPEED中的自适应块长度，Tandem在各种数据集上的延迟可以进一步降低1.04×至1.09×。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com