在过去的12个月里,人工智能领域发生了很多事情。从非常糟糕的结果来看,Midjourney v6 和 DALL-E 3 现在已经达到了逼真的质量。但这不仅仅是静止的图像。也有很好的大型语言模型可以根据文本输入生成视频—— RunwayML 就是一个例子。
但谷歌现在也通过VideoPoet引入了这样的人工智能。语言模型能够将静止图像转换为动态图像、根据您的输入创建视频、实现视频修复等。
视频修复意味着您可以使用现有视频并通过键入向其添加某些内容。
谷歌在其研究博客中描述了它的工作原理和科学背景,还有一篇关于它的论文。
在网站上,您会找到一些非常值得一看的例子。谷歌尚未向公众发布整个内容。