Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the advanced-cron-manager domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /www/wwwroot/www.help4uu.com/wp-includes/functions.php on line 6121
谷歌推出全能视频编码器VideoPrism 性能超越30项SOTA | 科技云

谷歌推出全能视频编码器VideoPrism 性能超越30项SOTA

谷歌推出全能视频编码器VideoPrism 性能超越30项SOTA

谷歌研究团队近日发布了全新的通用视频编码器——VideoPrism,其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。

VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,包括分类、定位、检索、字幕和问答等。其设计理念主要基于预训练数据和两阶段训练法。预训练数据方面,谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,构建了一个庞大的语料库。在建模方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,以优化语义视频嵌入和全局提炼。

VideoPrism的出色表现不仅体现在分类和定位任务上,还能进行视频-文本检索和QA问答。例如,给定一段视频,VideoPrism可以准确地检索出与文本内容相匹配的视频片段,或者根据视频内容回答相关问题。

谷歌团队表示,VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。未来,随着数据集的扩大和模型的不断优化,VideoPrism有望在更多领域实现突破,为视频理解和应用提供更强大的支持。

文章来源于互联,不代表科技云立场!如有侵权,请联系我们。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注