北京息壤-综艺后期狂喜：编辑一帧，整个视频跟着变！比LNA渲染快5倍，Adobe联合出品

2023/07/23百度收录域名

北京息壤：前不久跑男为了让“kunkun”原地消失，后期只能一帧一帧的抠图。
现在，只要修改一帧，整个视频就跟着变!
就是点点kunkun，整集就主动消失的那种（手动狗头）。
图片
Adobe Research和英属哥伦比亚大学的研讨人员发现，运用INVE（交互式神经视频修改），只需在单帧上“画笔涂鸦”，就能主动应用改动到整个视频中。
不仅可以修改视频中的目标并保留空间和光影关系，甚至可以修改移动目标的纹路颜色。
网友惊呼:太牛了!
图片
交互式神经视频修改
INVE（Interactive Neural Video Editing）是一种实时视频修改解决方案。
研讨团队遭到分层神经图集（LNA）的研讨启发。测验发现，经过运用INVE，可以将稀少帧修改共同地传播到整个视频剪辑，辅助视频修改进程。
图片
视频中的场景通常由非静态布景和一个或多个前景物体组成，运动轨迹也会不同。
早期的2D办法需求独立修改每一帧，并运用帧间盯梢来协调整个视频。
图片
假设我们要把这个小狗头像放在车门上，按照传统方式，视频中车是往前移动的，为防止不出现溢出作用，就需求一帧一帧练习和测验重复修改。
这种方式费时吃力不说，还容易导致明显的视觉伪影。
而最近发展起来的分层神经图集（LNA）办法，可以经过一组分层神经网络2D图集对单个练习和测验，达到修改整个视频的作用。
虽防止了逐帧修改，但也有一些问题，比如处理速度较慢、对某些修改用例支撑缺乏。
因而，研讨团队根据LNA办法，经过学习图画图集和图画之间的双向函数映射，并引入矢量化修改，使得在图集和图画中共同修改成为可能。
一起，采用多分辨率哈希编码来改进模型的收敛速度。
如何实现
研讨团队根据光流提取算法RAFT，在包含70帧且分辨率为768×432的视频上练习和测验模型。
首先，团队在每个练习批次中随机采样了10，000个视频像素，然后设定了一个模型参数值。
经过将GPU优化的Fully Fused MLP架构引入，仅迭代大约12，000个次数就完结练习，比较于LNA的300，000个迭代次数要少得多。
图片
测验显示该办法在单个NVIDIA RTX4090GPU上的烘托速度为24.81FPS，对比LNA的烘托速度5.34FPS，烘托速度快了近5倍。
经过相同数量的迭代练习，团队模型的重建、流场损失都比LNA更快地收敛。
此外，为实现点盯梢，团队挑选逆映射的办法，答应增加盯梢单个/少数点的刚性纹路。
图片
团队提出“矢量化素描技术”，将多边形链直接映射到图集中，更精确地操控线条，然后削减计算成本并防止有视觉伪影。
再经过分层修改，答应在图集之上叠加多个可修改图层，使每个图层都可独立访问和修改。
分层修改支撑多种类型的修改，包含画笔涂鸦、部分调整、纹路修改。
比如画笔涂鸦，就可以直接运用画笔工具草图涂鸦。
比如纹路修改，可以导入外部图形，盯梢和变形的运动目标。
研讨团队
作者团队由来自Adobe Research、英属哥伦比亚大学、AI Vector研讨所和CIFAR AI组成。
榜首作者是Jiahui Huang，现在是Adobe Research的研讨工程师，硕士结业于英属哥伦比亚大学。
其他作者包含Kwang Moo Yi、Oliver Wang和Joon Young Lee，整个团队研讨方向首要也是在计算机视觉、机器学习和视频修改领域。
论文地址已贴，感兴趣的可以去看看。

说米网

北京息壤-综艺后期狂喜：编辑一帧，整个视频跟着变！比LNA渲染快5倍，Adobe联合出品

admin