AI亿览通入口
400-700-8700
  • AI新零售

    AI新基建

    工业互联网
    消费品零售方案
    智慧城市
    地产科技

    AI新资管

    保险标的物AI监管
    动产抵押AI监管
星标品览,最新AI学术不错过!
 
 

近年来计算机视觉发展迅速,2D目标检测在精度和速度方面已经取得了巨大的提升,并应用在了很多的领域。2D检测虽然描述的场景和对象本身仍是三维的,但是却不包含物体的三维信息。随着5G技术的普及,互联网媒介形式势必也会迎来改变,机器人、导航、AR/VR等将被看作重点方向,而三维内容的理解也变得极为重要。

 
 
Mesh R-CNN在Pix3D数据集上的预测实例
 
2019年,Facebook发布了多个研究项目的内容,这些项目以不同却互补的方式推进了 3D 图像理解领域的最优水平,利用不同类型和数量的数据,解决了不同环境中的 3D 内容理解问题。
 
在这些研究中,Mesh R-CNN 在预测无约束受遮挡对象的 3D 形状任务中达到了最优,可以基于现实世界中的 2D 图像预测出物体的三角网格,于是将 2D 目标检测的能力拓展到了 3D 目标检测和形状预测。
Mask R-CNN框架
 
Mesh R-CNN 是基于实例分割框架 Mask R-CNN 改进而来,增加网格预测分支来输出目标的三角网格。该方法可以在仅有 RGB 图像输入的情况下,同时实现目标检测、实例分割和物体 3D 三角网格预测的功能。这种方法预测的网格不但可以描述不同的3D结构,而且可以适用于不同的几何复杂度。
 
Mesh R-CNN 摒弃了使用固定网格模板预测形态的方法,而是利用多种三维表达方法完成预测。首先模型预测出粗糙的目标体素,然后转换成网格并对其进行细化。
Mesh R-CNN流程
 
模型以 RGB 图像作为输入,对目标进行检测,获取目标的类别、掩膜和三维网格,并对真实世界中的复杂模型进行有效处理。
 
网络由三个部分组成,包括预测类别和掩膜的检测分支、预测体素的分支和网格优化分支。box/mask预测分支和体素预测分支的输入相同,都是与图像对齐的特征。此外,受RoIAlign的启发,网格预测中还加入了VertAlign将特征与输入图像进行对应。最后,将目标检测、语义分割和网格预测损失结合,实现了对网络端到端的训练和优化。
Mesh R-CNN系统
 
Mesh R-CNN 的核心是网格预测器,它利用输入的对齐的图像特征,输出物体的三维网格。同时保证了特征在不同阶段的对齐,包括区域(RoIAlign)和体素(VertAlign)的对齐操作。每个预测出的网格都有自己的拓扑结构(种类、顶点、边和面)和几何形状。
 
与Mask R-CNN类似,体素分支也使用了来自RoIAlign的特征,得到G个通道的输出,体素表示输入位置的占据分数,研究人员使用了24x24x24大小的体素表示。模型对检测到的物体预测栅格在空间中的占据概率,得到3D模型的形状,可以将其视为3D版的Mask R-CNN。
 
随后的立方体化将3D体素的占据概率转换为三角网格模型。它将输入的占据概率二进制输出,每个体素占据点被一个立方体的三角网格代替,包含8个顶点、18条边和12个面。相邻的立方体共享边,紧邻的面被消除。最终得到的网格与体素的形态学相同。
 
最后将得到的网格进一步细化,从而获取精确的结果。
 
首先将顶点与图像的特征对齐;
然后利用图卷积在每一条mesh边上对信息进行传播;
最后用得到的结果更新每个顶点的位置。
 
为了给网格细化分支建立损失,研究人员在网格表面进行稠密的采样得到点云,来计算该分支的损失。结果如下:
带孔物体的预测对比
 
由此可见,该方法可以有效地预测带有孔洞的物体,同时对复杂环境中的3D物体也有良好的效果。
 
此外,研究人员在ShapeNet和Pix3D数据集上已经验证了该模型的有效性。在Pix3D数据集上,能够检测所有类别对象,并能预测出被遮挡的家具的完整形状;在ShapNet数据集上,体素预测和网格细化的混合法比以前要好7%。
 
 

【AI论技】Mesh R-CNN回顾:三维目标检测与形状预测

2020-08-26