当前位置：首页 > 光粒网 > 软件 > 正文

谷歌应用多模态大型语言模型解决视频生成任务

2023-12-22 10:47:52　来源：激光网原创　

谷歌揭露最新多模态大型语言模型VideoPoet，该语言模型能够执行各种影片生成任务，包括文字转影片、图片转影片、影片风格化，影片补绘与扩绘，甚至是影片转音频等。该模型特别之处在于VideoPoet是一个大型语言模型，有别于目前大多基于扩散模型的视频生成模型。

谷歌指出，即使是目前最先进的影片生成模型，也只能生成小幅度的动作，在生成大动作的时候，就会出现明显的破绽。谷歌探索大型语言模型在视频生成领域的应用，开发出VideoPoet，这是一个能够执行各种视频生成、任务的大型语言模型，研究人员指出，诸如Imagen Video等影片生成模型，都是以扩散模型为基础。

由于大型语言模型目前在各个领域，包括语言、代码和声音等，都具有极强的处理能力，谷歌认为大型语言因为在多种模态上优秀的学习能力，已经成为重要的技术标准。因此不同于该领域的其他模型，VideoPoet 将视频生成能力整合到单一大型语言模型中，而非仰赖各项针对性任务训练的独立元件。

影片生成任务采用大型语言模型的优势，在于可以利用现有的高效训练基础设施，但研究人员也指出，大型语言模型的本质上是处理离散的标记，而这对于生成影片是一个挑战。因此研究人员开发了专用的视频和音频标记器，将视频和音频剪辑片段编码为离散的标记序列，而这个离散的标记序列也能够被转换回原始表示。

VideoPoet通过使用多种标记器，学习处理视频、图像、音频和文字等不同模态。 当模型根据特定上下文条件生成相对应的标记后，这些标记就可以透过标记器转换回可查看的表示形式，生成视频和音频内容。

VideoPoet适应短视频格式默认生成纵向视频，并在进行视频风格化时，能够预测光流以及深度信息。同时VideoPoet也可以生成音频，透过先从模型生成2秒的音频片段，接着就可在没有文字指引的情况下，预测接下来的音频。而这也让VideoPoet单一模型，就可生成影片和配音。

VideoPoet能以前一秒的影片预测下1秒的影片，以连续预测的方式达到生成更长影片的目的，而这种方法不只可以有效延长影片，而且经过多次迭代后仍能保持影片主体的外观不变。 VideoPoet生成的影片也能够以互动的方式编辑，像是改变影片中物体的运动，使其执行不同的动作，且编辑会从影片的第一个影格，或是中段的影格开始，提供了高度可编辑控制性。使用者也可以通过文字提示，添加需要的摄影机运动方式，借此精确地控制摄影机的移动。

经过评估，VideoPoet能够良好的执行视频生成任务，在多项基准测试中，VideoPoet较其他模型表现更好。研究人员要求评估者根据偏好选择，在文字准确度方面，平均24%-35%VideoPoet的范例被认为更符合指令描述，而其他模型的比例则为8%-11%。评估者还更倾向选择VideoPoet范例，认为其中41%-54%范例呈现出更有趣的运动方式，相较于其他模型比例只有11%-21%。

VideoPoet的研究贡献在于展示大型语言模型的能力，也具有生成高度竞争力影片的能力，特别是在高质量的动作表现方面。研究人员指出，对于未来研究，他们的框架会朝向支持任意形式生成任意形式内容的方向发展。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com