使用代理服务器上网-文本直接在3D场景中生成对象,谷歌推出InseRF模型

跟着大模型技能的飞速发展,根据语言和视觉的3D场景修改办法取得了十足前进,如Instruct-NeRF2NeRF在修正和场景操控方面展示了强壮功用。但在内容生成方面仍然面对困难,例如,在3D场景中直接生成一只3D蝴蝶。
为了处理这一难题,谷歌瑞士公司和苏黎世联邦理工学院联合开发了InseRF模型。用户经过InseRF只需输入文本描绘和挑选特定区域,就能在3D场景中直接生成物品。
例如,使用代理服务器上网,在一个3D桌子场景中,在桌面框选一个区域,然后在文本框中输入“生成一个茶杯”,就能快速生成一个3D茶杯模型。
论文地址:https://arxiv.org/abs/2401.05335
InseRF执行流程
InseRF的核心技能创新在于,经过在单个参阅视角进行根据遮挡和文本指导的2D方针刺进,再将其映射到3D场景,这样能够保证多视角下的一致性并且无需提供详细坐标数据。详细执行流程如下。
图片
1) 在挑选的场景参阅视角中,根据文本提示和2D边界框生成方针方针;
2) 从参阅视角中的2D图画重建方针方针的3D表征;3) 运用单眼深度估量办法,估量方针在3D场景中的方位;
4) 将方针和场景的3D表征交融为包括方针的新场景;5) 对交融的场景进行优化以进一步改进作用。
2D参阅视角修改
首先挑选场景的一个烘托视角作为参阅,然后在参阅视角中刺进方针方针的2D视图。文本提示和2D边界框用于3D空间约束,然后保证刺进保持在指定的区域内。
为实现部分化的2D刺进,InseRF挑选了Imagen作为文本到图画生成模型,并经过再次重建的办法使其习惯遮挡区域条件。
图片
再从参阅视角中提取生成方针对应的图画区域,并运用单视图重建办法SyncDreamer将其映射到3D方针。该重建办法包括有用的3D物体几何和外观先验,有助于生成高质量的3D方针。
3D放置评估
研究人员经过单目深度估量办法,评估方针在参阅视角中的深度,然后确认其在3D场景中对应的方位。
然后进行份额和间隔优化,保证刺进的3D方针视图与2D参阅修改匹配。最后计算出方针的旋转和平移,完成3D放置。
图片
此外,在得到方针在场景中的方位后,将两者的NeRF表明进行交融,使其能够从不同角度烘托包括方针的新场景,以优化两个坐标体系方位不一致带来的影响。
最后,经过Instruct-NeRF2NeRF的迭代优化办法,来进一步改进3D物品刺进的作用,可运用从刺进方针中获得的多视角遮挡来约束优化区域。
为了测验InseRF的功能,研究人员与当前抢先的三维场景修改产品Instruct-NeRF2NeRF和Multi-View Inpainting进行了评估。InseRF可成功生成各种方针并刺进到3D场景中的指定方位,并显着优于这两款产品。
值得一提的是,InseRF只需要一个大略的视角框,就可实现精确的方针定位,这对于用户来说非常便捷。