激光网
当前位置: 首页 > 光粒网 > 软件 > 正文

谷歌应用多模态大型语言模型解决视频生成任务

2023-12-22 10:47:52  来源:激光网原创    

谷歌揭露最新多模态大型语言模型VideoPoet,该语言模型能够执行各种影片生成任务,包括文字转影片、图片转影片、影片风格化,影片补绘与扩绘,甚至是影片转音频等。 该模型特别之处在于VideoPoet是一个大型语言模型,有别于目前大多基于扩散模型的视频生成模型。

谷歌指出,即使是目前最先进的影片生成模型,也只能生成小幅度的动作,在生成大动作的时候,就会出现明显的破绽。 谷歌探索大型语言模型在视频生成领域的应用,开发出VideoPoet,这是一个能够执行各种视频生成、任务的大型语言模型,研究人员指出,诸如Imagen Video等影片生成模型,都是以扩散模型为基础。

由于大型语言模型目前在各个领域,包括语言、代码和声音等,都具有极强的处理能力,谷歌认为大型语言因为在多种模态上优秀的学习能力,已经成为重要的技术标准。 因此不同于该领域的其他模型,VideoPoet 将视频生成能力整合到单一大型语言模型中,而非仰赖各项针对性任务训练的独立元件。

影片生成任务采用大型语言模型的优势,在于可以利用现有的高效训练基础设施,但研究人员也指出,大型语言模型的本质上是处理离散的标记,而这对于生成影片是一个挑战。 因此研究人员开发了专用的视频和音频标记器,将视频和音频剪辑片段编码为离散的标记序列,而这个离散的标记序列也能够被转换回原始表示。

VideoPoet通过使用多种标记器,学习处理视频、图像、音频和文字等不同模态。 当模型根据特定上下文条件生成相对应的标记后,这些标记就可以透过标记器转换回可查看的表示形式,生成视频和音频内容。

VideoPoet适应短视频格式默认生成纵向视频,并在进行视频风格化时,能够预测光流以及深度信息。 同时VideoPoet也可以生成音频,透过先从模型生成2秒的音频片段,接着就可在没有文字指引的情况下,预测接下来的音频。 而这也让VideoPoet单一模型,就可生成影片和配音。

VideoPoet能以前一秒的影片预测下1秒的影片,以连续预测的方式达到生成更长影片的目的,而这种方法不只可以有效延长影片,而且经过多次迭代后仍能保持影片主体的外观不变。 VideoPoet生成的影片也能够以互动的方式编辑,像是改变影片中物体的运动,使其执行不同的动作,且编辑会从影片的第一个影格,或是中段的影格开始,提供了高度可编辑控制性。 使用者也可以通过文字提示,添加需要的摄影机运动方式,借此精确地控制摄影机的移动。

经过评估,VideoPoet能够良好的执行视频生成任务,在多项基准测试中,VideoPoet较其他模型表现更好。 研究人员要求评估者根据偏好选择,在文字准确度方面,平均24%-35%VideoPoet的范例被认为更符合指令描述,而其他模型的比例则为8%-11%。 评估者还更倾向选择VideoPoet范例,认为其中41%-54%范例呈现出更有趣的运动方式,相较于其他模型比例只有11%-21%。

VideoPoet的研究贡献在于展示大型语言模型的能力,也具有生成高度竞争力影片的能力,特别是在高质量的动作表现方面。 研究人员指出,对于未来研究,他们的框架会朝向支持任意形式生成任意形式内容的方向发展。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com