使用代理服务器上网-文本直接在3D场景中生成对象，谷歌推出InseRF模型

2024/01/28360收录域名

跟着大模型技能的飞速发展，根据语言和视觉的3D场景修改办法取得了十足前进，如Instruct-NeRF2NeRF在修正和场景操控方面展示了强壮功用。但在内容生成方面仍然面对困难，例如，在3D场景中直接生成一只3D蝴蝶。
为了处理这一难题，谷歌瑞士公司和苏黎世联邦理工学院联合开发了InseRF模型。用户经过InseRF只需输入文本描绘和挑选特定区域，就能在3D场景中直接生成物品。
例如，使用代理服务器上网,在一个3D桌子场景中，在桌面框选一个区域，然后在文本框中输入“生成一个茶杯”，就能快速生成一个3D茶杯模型。
论文地址:https://arxiv.org/abs/2401.05335
InseRF执行流程
InseRF的核心技能创新在于，经过在单个参阅视角进行根据遮挡和文本指导的2D方针刺进，再将其映射到3D场景，这样能够保证多视角下的一致性并且无需提供详细坐标数据。详细执行流程如下。
图片
1）在挑选的场景参阅视角中，根据文本提示和2D边界框生成方针方针;
2）从参阅视角中的2D图画重建方针方针的3D表征;3) 运用单眼深度估量办法，估量方针在3D场景中的方位;
4）将方针和场景的3D表征交融为包括方针的新场景;5) 对交融的场景进行优化以进一步改进作用。
2D参阅视角修改
首先挑选场景的一个烘托视角作为参阅，然后在参阅视角中刺进方针方针的2D视图。文本提示和2D边界框用于3D空间约束，然后保证刺进保持在指定的区域内。
为实现部分化的2D刺进，InseRF挑选了Imagen作为文本到图画生成模型，并经过再次重建的办法使其习惯遮挡区域条件。
图片
再从参阅视角中提取生成方针对应的图画区域，并运用单视图重建办法SyncDreamer将其映射到3D方针。该重建办法包括有用的3D物体几何和外观先验，有助于生成高质量的3D方针。
3D放置评估
研究人员经过单目深度估量办法，评估方针在参阅视角中的深度，然后确认其在3D场景中对应的方位。
然后进行份额和间隔优化，保证刺进的3D方针视图与2D参阅修改匹配。最后计算出方针的旋转和平移，完成3D放置。
图片
此外，在得到方针在场景中的方位后，将两者的NeRF表明进行交融，使其能够从不同角度烘托包括方针的新场景，以优化两个坐标体系方位不一致带来的影响。
最后，经过Instruct-NeRF2NeRF的迭代优化办法，来进一步改进3D物品刺进的作用，可运用从刺进方针中获得的多视角遮挡来约束优化区域。
为了测验InseRF的功能，研究人员与当前抢先的三维场景修改产品Instruct-NeRF2NeRF和Multi-View Inpainting进行了评估。InseRF可成功生成各种方针并刺进到3D场景中的指定方位，并显着优于这两款产品。
值得一提的是，InseRF只需要一个大略的视角框，就可实现精确的方针定位，这对于用户来说非常便捷。

说米网

使用代理服务器上网-文本直接在3D场景中生成对象，谷歌推出InseRF模型

admin