许可证查询-百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入

百度推出的UniVG是一款视频生成模型,其特色在于针对高自由度和低自由度两种任务分别采用不同的生成办法,以更好地平衡两者之间的联系。
image.png
项目地址:https://top.aibase.com/tool/univg
项目演示页面:https://univg-baidu.github.io/
许可证查询,视频生成技能基于“分散”原理的办法近来在学术和产业界引起广泛关注,并获得明显成就。然而,现在这一范畴主要集中在单一方针或单一任务的视频生成上,例如依据文本、图片或它们的组合生成视频。但这样的办法并不能彻底满足实在国际多变的运用需求。用户通常需要更灵活的输入办法,如单独运用图画或文本,或将二者结合起来。
为了处理这一问题,百度提出了UniVG,一种“一致模态视频生成体系”,能够处理各种文本和图画的组合输入。该体系重新界说了视频生成模型中的多项任务,将它们划分为“高自由度生成”和“低自由度生成”两大类。在高自由度视频生成方面,采用了“多条件穿插注意力”技能,以生成与输入的图画或文本语义高度一致的视频。而在低自由度视频生成方面,引入了“偏置高斯噪声”,这种办法相较于传统的彻底随机高斯噪声更能有效地保存输入条件的原始内容。
技能功能方面,UniVG在MSR-VTT视频数据库上表现出色,获得了最低的帧间视频差异性衡量(Frame Video Distance, FVD)。这一成果不仅逾越了当时的开源办法,还与业界领先的闭源办法Gen2不相上下,显现出了杰出的实用价值和技能优势。