激光网3月27日消息,谷歌推出了 VideoPrism,这是一个能够处理各种视频分析任务的单一模型,如分类、检索、字幕和问答。
VideoPrism 在由 3600 万个视频-文本对和另外 5.82 亿个视频剪辑组成的数据集上进行了预训练。
在演示视频中,谷歌解释说,VideoPrism 使用两阶段训练方法。首先,它采用对比学习将视频与其文本描述相匹配。
然后,它使用屏蔽视频建模框架利用没有文本描述的视频来预测视频中的屏蔽补丁。
VideoPrism 可以与大型语言模型结合使用,用于各种视频语言任务,例如视频文本检索、字幕和问答。
在完成测试后,谷歌表示,VideoPrism 在 33 个视频理解基准测试中的 30 个上取得了可接受的性能。
VideoPrism 在行为学、行为神经科学和生态学等科学领域使用的数据集上进行了测试。
谷歌在一份声明中表示,该编码器不仅性能良好,而且超过了专门为这些任务设计的模型,这表明其在科学分析视频数据方面的潜力。