激光网
当前位置: 首页 > 光粒网 > 软件 > 正文

谷歌推出新的人工智能视频分析工具VideoPrism

2024-03-27 15:33:35  来源:激光网原创    

激光网3月27日消息,谷歌推出了 VideoPrism,这是一个能够处理各种视频分析任务的单一模型,如分类、检索、字幕和问答。

VideoPrism 在由 3600 万个视频-文本对和另外 5.82 亿个视频剪辑组成的数据集上进行了预训练。

在演示视频中,谷歌解释说,VideoPrism 使用两阶段训练方法。首先,它采用对比学习将视频与其文本描述相匹配。

然后,它使用屏蔽视频建模框架利用没有文本描述的视频来预测视频中的屏蔽补丁。

VideoPrism 可以与大型语言模型结合使用,用于各种视频语言任务,例如视频文本检索、字幕和问答。

在完成测试后,谷歌表示,VideoPrism 在 33 个视频理解基准测试中的 30 个上取得了可接受的性能。

VideoPrism 在行为学、行为神经科学和生态学等科学领域使用的数据集上进行了测试。

谷歌在一份声明中表示,该编码器不仅性能良好,而且超过了专门为这些任务设计的模型,这表明其在科学分析视频数据方面的潜力。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com