全能空间-Google人工智能技术“Transframer”可根据一张图片创建短视频

跟着技能的发展,研究人员持续寻找新的方法来运用人工智能和机器学习才能。本周早些时候,Google科学家宣布创建了Transframer,这是一个新的框架,它能依据单一的图画输入来生成短视频。这项新技能有朝一日可以增强传统的烘托解决方案并使开发者可以根据机器学习才能创建虚拟环境。

这个新框架的名称(及在某些方面的概念)是对另一个根据人工智能的模型Transformer的点赞。Transformer开始于2017年推出,是一个新颖的神经网络架构,它有才能经过建模和比较句子中的其他词来生成文本。尔后,该模型被纳入了规范的深度学习框架如TensorFlow和PyTorch。

据悉,Transframer运用具有相似特点的布景图画,结合查询注释来创建短视频全能空间。尽管在原始图画输入中没有供给任何几何数据,但产生的视频在目标图画周围移动并将准确的视角可视化。

这项新技能运用Google的DeepMind人工智能渠道进行了演示,其功能是剖析单一的相片布景图画以此来获得关键的图画数据并生成额外的图画。在这一剖析过程中,体系确认了图片的框架,这反过来又协助体系猜测图片的周围环境。

然后,语境图画被用来进一步猜测图片从不同视点会呈现的情况。猜测依据数据、注释及语境框架中的任何其他信息对额外图画框架的概率进行建模。

该框架经过供给根据非常有限的数据集生成合理准确的视频的才能,这标志着视频技能的巨大进步。Transframer任务在其他跟视频有关的任务和基准上也显示出极有远景的结果,如语义分割、图画分类和光流猜测。

对根据视频的职业如游戏开发或许具有潜在的巨大影响。目前的游戏开发环境依赖于核心烘托技能,如着色、纹路映射、景深和光线追踪。像Transframer这样的技能有或许经过运用人工智能和机器学习来构建他们的环境并与此同时来减少创建环境所需的时刻、资源和精力以为开发者供给一个全新的开发路径。