guodong's blog

master@zhejiang university
   

论文阅读(5)Mask R-CNN

论文地址:https://arxiv.org/pdf/1703.06870.pdf

Abstract:我们提出了一个概念上简单,灵活,通用的对象实例分割框架。我们的方法有效地检测图像中的对象,同时为每个实例生成高质量的分割掩码。该方法称为Mask R-CNN,通过添加用于预测与现有分支并行的对象掩码的分支来扩展更快的R-CNN以用于边界框识别。 Mask R-CNN易于训练,只需很少的开销即可以更快的速度增加R-CNN,运行速度为5 fps。此外,Mask R-CNN很容易推广到其他任务,例如,允许我们在同一框架中估计人体姿势。我们在COCO挑战套件的所有三个轨道中展示了最佳结果,包括实例分割,边界框对象检测和人员关键点检测。没有花里胡哨,Mask R-CNN在每项任务中都优于所有现有的单一模型,包括COCO 2016挑战赛冠军。我们希望我们简单有效的方法将成为一个坚实的基线,并有助于简化未来在实例级认可方面的研究。代码已在以下网址获得:https://github.com/facebookresearch / Detectron。

1. Introduction

视觉社区在短时间内迅速改进了对象检测和语义分割结果。在很大程度上,这些进步是由强大的基线系统驱动的,例如fast/faster RCNN [12,36]和完全卷积网络(FCN)[30]框架分别用于对象检测和语义分割。这些方法在概念上是直观的,并提供灵活性和稳健性,以及快速的培训和推理时间。我们在这项工作中的目标是为实例细分开发一个可比较的支持框架。

实例分割具有挑战性,因为它需要正确检测图像中的所有对象,同时还要精确地分割每个实例。因此,它结合了来自对象检测的经典计算机视觉任务的元素,其目标是对各个对象进行分类并使用边界框对每个对象进行定位,以及语义分割,其目标是将每个像素分类为固定的一组类别而不区分对象实例。鉴于此,人们可能期望需要一种复杂的方法来获得良好的结果。然而,我们表明,一个令人惊讶的简单,灵活和快速的系统可以超越先前的最新实例分割结果。

我们的方法称为Mask R-CNN,通过添加一个分支来预测每个感兴趣区域(RoI)上的分割掩码,与现有分支并行进行分类和边界框回归,扩展了Faster R-CNN [36](图1) 。掩模分支是应用于每个RoI的小FCN,以像素 – 像素方式预测分割掩模。 Mask R-CNN易于实现和训练,因为它提供了更快的R-CNN框架,这有助于广泛的灵活架构设计。此外,掩码分支仅增加了小的计算开销,从而实现了快速系统和快速实验。

原则上,mask R-CNN是faster R-CNN的直观扩展,但正确构建掩模分支对于获得良好结果至关重要。最重要的是,faster RCNN不是为网络输入和输出之间的像素到像素对齐而设计的。这在RoIPool [18,12](参与实例的事实上的核心操作)如何为特征提取执行粗略空间量化方面最为明显。为了解决这个错位,我们提出了一个简单的,无量化的层,称为RoIAlign,忠实地保留了精确的空间位置。尽管看似微小的变化,但RoIAlign的影响很大:它将掩模精度提高了10%到50%,在更严格的本地化指标下显示出更大的收益。其次,我们发现分离掩码和类预测是必不可少的:我们独立地预测每个类的二进制掩码,没有类之间的竞争,并依赖于网络的RoI分类分支来预测类别。相比之下,FCN通常执行逐像素多类别分类,其结合分割和分类,并且基于我们的实验,实例分割效果不佳。

没有花里胡哨,Mask R-CNN在COCO实例分割任务[28]上超越了所有先前最先进的单一模型结果,包括来自2016年竞赛获胜者的重度工程条目。 作为副产品,我们的方法也擅长COCO对象检测任务。 在消融实验中,我们评估了多个基本实例,这使我们能够证明其稳健性并分析核心因素的影响。

我们的模型可以在GPU上以每帧大约200ms的速度运行,而COCO上的培训在单个8-GPU机器上需要一到两天。 我们相信快速训练和测试速度以及框架的灵活性和准确性将有利于并简化未来对实例分割的研究。

最后,我们通过COCO关键点数据集上的人体姿态估计任务展示了我们框架的一般性[28]。 通过将每个关键点视为单热二进制掩码,通过最小的修改,可以应用掩码R-CNN来检测特定于实例的姿势。 Mask R-CNN超越2016年COCO关键点竞赛的冠军,同时以5 fps的速度运行。 因此,mask R-CNN可以更广泛地被视为用于实例级识别的灵活框架,并且可以容易地扩展到更复杂的任务。

我们已经发布了代码以促进未来的研究。

2. Related Work

R-CNN:基于区域的CNN(R-CNN)方法[13]用于边界框对象检测是为了处理可管理数量的候选对象区域[42,20]并独立评估卷积网络[25,24]在每个RoI上。 R-CNN被扩展[18,12]以允许使用RoIPool在特征地图上参与RoI,从而实现更快的速度和更高的准确性。faster R-CNN [36]通过学习区域候选网络(RPN)的注意机制来推进这一流。更快的R-CNN对于许多后续改进(例如,[38,27,21])是灵活且稳健的,并且是若干基准中的当前领先框架。

实例分割:受RCNN有效性的驱动,许多实例分割方法都基于分段提案。早期的方法[13,15,16,9]采用自下而上的方法[42,2]。 DeepMask [33]及其后的作品[34,8]学会提出片段候选,然后通过fast R-CNN进行分类。在这些方法中,分割先于识别,这是缓慢且不太准确的。同样,戴等人[10]提出了一个复杂的多阶段级联,它从边界框提议中预测分段提议,然后进行分类。相反,我们的方法基于掩模和类标签的并行预测,这更简单,更灵活。

最近,李等人 [26]将[8]中的分段建议系统和[11]中的目标检测系统结合起来,用于“完全卷积实例分割”(FCIS)。 [8,11,26]中的常见想法是完全卷积预测一组位置敏感输出通道。 这些通道同时处理对象类,框和掩码,使系统快速。 但FCIS在重叠实例上表现出系统性错误并产生虚假边缘(图6),表明它受到分割实例的基本困难的挑战。

实例分割的另一系列解决方案[23,4,3,29]由语义分割的成功驱动。 从每像素分类结果(例如,FCN输出)开始,这些方法试图将相同类别的像素切割成不同的实例。 与这些方法的分段优先策略相比,Mask R-CNN基于实例优先策略。 我们预计未来将研究两种策略的更深层次结合

3. Mask R-CNN

mask R-CNN在概念上很简单:faster R-CNN为每个候选对象提供两个输出,一个类标签和一个边界框偏移; 为此,我们添加了第三个输出对象掩码的分支。 因此,mask R-CNN是一种自然而直观的想法。 但是额外的掩码输出与类和框输出不同,需要提取对象的更精细的空间布局。 接下来,我们介绍Mask R-CNN的关键元素,包括像素到像素的对齐,这是Fast / Faster R-CNN的主要缺失部分。

faster R-CNN:我们首先简要回顾一下更快的R-CNN探测器[36]。 更快的R-CNN包括两个阶段。 第一阶段称为区域提议网络(RPN),提出候选对象边界框。 第二阶段,实质上是快速R-CNN [12],从每个候选框中使用RoIPool提取特征,并执行分类和边界框回归。 可以共享两个阶段使用的功能,以便更快地推断。 我们向读者推荐[21],以便在更快的R-CNN和其他框架之间进行最新,全面的比较。

mask R-CNN:mask R-CNN采用相同的两阶段过程,具有相同的第一阶段(即RPN)。 在第二阶段,与预测类和盒偏移并行,Mask R-CNN还为每个RoI输出二进制掩码。 这与最近的系统形成对比,其中分类取决于掩模预测(例如[33,10,26])。 我们的方法遵循Fast R-CNN [12]的精神,它并行应用边界框分类和回归(结果大大简化了原始R-CNN的多阶段流水线[13])。

正式地,在训练期间,我们将每个采样的RoI上的多任务损失定义为L = Lcls + Lbox + Lmask。 分类损失Lcls和边界框损失Lbox与[12]中定义的相同。 掩码分支具有每个RoI的Km2维输出,其编码分辨率为m×m的K个二进制掩码,每个K类对应一个。 为此我们应用每像素sigmoid,并将Lmask定义为平均二进制交叉熵损失。 对于与地面实况类k相关联的RoI,Lmask仅在第k个掩模上定义(其他掩模输出不会导致损失)。

我们对Lmask的定义允许网络为每个类生成掩码,而不需要在类之间进行竞争; 我们依靠专用的分类分支来预测用于选择输出掩码的类标签。 这解耦了掩码和类预测。 这与将FCN [30]应用于语义分割时的常规做法不同,后者通常使用每像素softmax和多项交叉熵损失。 在这种情况下,各类的mask竞争; 在我们的例子中,每像素sigmoid和二进制损失,它们没有相互竞争。 我们通过实验表明,该公式是良好实例分割结果的关键。

掩码表示:掩码编码输入对象的空间布局。 因此,与通过完全连接(fc)层不可避免地折叠成短输出矢量的类标签或盒偏移不同,提取掩模的空间结构可以通过由卷积提供的像素到像素的对应自然地解决。

具体来说,我们使用FCN预测每个RoI的m×m掩模[30]。 这允许掩模分支中的每个层保持显式的m×m对象空间布局,而不将其折叠成缺少空间维度的矢量表示。 与先前使用fc层进行掩模预测[33,34,10]的方法不同,我们的完全卷积表示需要更少的参数,并且通过实验证明更准确。

这种像素到像素的行为要求我们的RoI特征(它们本身就是小特征映射)能够很好地对齐,以忠实地保持显式的每像素空间对应关系。 这促使我们开发以下RoIAlign层,该层在掩模预测中起关键作用。

RoIAlign:RoIPool [12]是用于从每个RoI提取小特征映射(例如,7×7)的标准操作。 RoIPool首先将浮点数RoI量化为特征映射的离散粒度,然后将该量化的RoI细分为自身量化的空间区间,最后聚合每个区间覆盖的特征值(通常通过最大池化)。 例如,通过计算[x / 16]在连续坐标x上执行量化,其中16是特征图步幅并且[·]是四舍五入的; 同样地,当分成区间(例如,7×7)时执行量化。 这些量化引入了RoI和提取的特征之间的未对准。 虽然这可能不会影响对小翻译具有鲁棒性的分类,但它对预测像素精确掩模有很大的负面影响。

为了解决这个问题,我们提出了一个RoIAlign层来消除RoIPool的严格量化,正确地将提取的特征与输入对齐。 我们提出的改变很简单:我们避免对RoI边界或区间进行任何量化(即,我们使用x / 16而不是[x / 16])。 我们使用双线性插值[22]来计算每个RoI仓中四个常规采样位置的输入要素的精确值,并汇总结果(使用最大值或平均值),详见图3。 我们注意到,只要不执行量化,结果对精确采样位置或采样点数不敏感。

正如我们在§4.2中所展示的那样,RoIAlign带来了巨大的改进。 我们还与[10]中提出的RoIWarp操作进行了比较。 与RoIAlign不同,RoIWarp忽略了对齐问题,并在[10]中实现为量化RoI,就像RoIPool一样。 因此,尽管RoIWarp也采用[22]推动的双线性重采样,但它与RoIPool相当,如实验所示(表2c中的更多细节),证明了对齐的关键作用。

网络架构:为了演示我们方法的一般性,我们使用多种架构实例化Mask R-CNN。 为清楚起见,我们区分:(i)用于整个图像上的特征提取的卷积骨干架构,以及(ii)用于边界框识别(分类和回归)的网络头和单独应用于每个RoI的掩模预测。

我们使用命名法网络深度特征来表示骨干架构。我们评估深度为50或101层的ResNet [19]和ResNeXt [45]网络。faster R-CNN与ResNets [19]的实现从第4阶段的最终卷积层中提取了特征,我们称之为C4。例如,ResNet-50的这个主干由ResNet-50-C4表示。这是[19,10,21,39]中常用的选择。

我们还探索了Lin等人最近提出的另一个更有效的主干。 [27],称为特征金字塔网络(FPN)。 FPN使用具有横向连接的自上而下架构,从单一尺度输入构建网内特征金字塔。具有FPN骨干的更快的R-CNN根据其规模从特征金字塔的不同级别提取RoI特征,但是其他方法类似于vanilla ResNet。使用ResNet-FPN骨干网通过Mask RCNN进行特征提取,可以在精度和速度方面获得极佳的提升。有关FPN的更多详细信息,请参阅[27]。

对于网络头,我们密切关注先前工作中提出的架构,我们在其中添加完全卷积掩模预测分支。 具体来说,我们从ResNet [19]和FPN [27]论文中扩展了faster R-CNN头。 详细信息如图4所示.ResNet-C4骨干网的头部包括ResNet的第5阶段(即9层’res5′[19]),这是计算密集型的。 对于FPN,主干网已经包含res5,因此允许使用更少过滤器的更高效的磁头。

我们注意到我们的掩模分支具有简单的结构。 更复杂的设计有可能提高性能,但不是这项工作的重点。

3.1. Implementation Details

我们根据现有的fast/faster R-CNN工作设置超参数[12,36,27]。虽然这些决定是在原始论文[12,36,27]中用于目标检测的,但我们发现我们的实例分割系统对它们是健壮的。

训练:如在fast R-CNN中,如果具有至少为0.5的GT的IoU,则认为RoI为正,否则为负。掩模损失Lmask仅在正RoI上定义。掩模目标是RoI与其相关的GT掩模之间的交集。

我们采用以图像为中心的训练[12]。调整图像大小以使其比例(较短边缘)为800像素[27]。每个小批量每个GPU有2个图像,每个图像有N个采样的RoI,正负比为1:3 [12]。 C4主干的N为64(如[12,36]),FPN为512(如[27])。我们在8个GPU(有效的小批量大小为16)上进行160k次迭代训练,学习率为0.02,在120k迭代时减少10倍。我们使用0.0001的重量衰减和0.9的动量。使用ResNeXt [45],我们训练每个GPU有1个图像和相同的迭代次数,起始学习率为0.01。

在[27]之后,RPN锚点跨越5个尺度和3个纵横比。为了方便消融,RPN是单独训练的,除非另有说明,否则不与Mask R-CNN共享功能。对于本文中的每个条目,RPN和Mask R-CNN具有相同的主干,因此它们是可共享的。

推论:在测试时,C4主干的生成为300个proposal(如[36]所示),FPN为1000(如[27])。 我们在这些proposal上运行box预测分支,然后是非最大抑制[14]。 然后将掩模分支应用于最高得分100个检测框。 虽然这与训练中使用的并行计算不同,但它加速了推理并提高了准确性(由于使用更少,更准确的RoI)。 掩码分支可以预测每个RoI的K个掩码,但是我们仅使用第k个掩码,其中k是分类分支的预测类。 然后将m×m浮点掩码输出调整大小为RoI大小,并在阈值0.5处二进制化。 注意,由于我们仅在前100个检测框上计算掩模,因此mask R-CNN为其faster R-CNN对应物增加了小的开销(例如,在典型模型上为~20%)。

4. Experiments: Instance Segmentation

我们对Mask R-CNN与现有技术进行了彻底的比较,同时对COCO数据集进行了全面的消融[28]。 我们报告标准COCO指标,包括AP(平均超过IoU阈值),AP50,AP75和APS,APM,APL(不同规模的AP)。除非另有说明,否则AP正在使用掩码IoU进行评估。 与之前的工作[5,27]一样,我们使用80k列车图像和35k val图像子集(trainval35k)进行训练,并报告其余5k val图像(迷你)的消融情况。 我们还在test-dev上报告结果[28]。

4.1. Main Results

我们将Mask R-CNN与表1中实例分割中的最新方法进行比较。我们模型的所有实例都优于先前最先进模型的基线变体。 这包括MNC [10]和FCIS [26],分别是COCO 2015和2016年细分挑战的获胜者。 没有花里胡哨,具有ResNet-101-FPN骨干的Mask R-CNN优于FCIS +++ [26],其中包括多尺度训练/测试,水平翻转测试和在线难实例挖掘(OHEM)[38]。 虽然超出了这项工作的范围,但我们希望许多此类改进适用于我们的。

mask R-CNN输出在图2和图5中可视化。mask R-CNN即使在具有挑战性的条件下也能获得良好的结果。 在图6中,我们比较了Mask R-CNN基线和FCIS +++ [26]。 FCIS +++在重叠实例上展示了系统伪像,表明它受到实例分割的基本困难的挑战。 掩码R-CNN没有显示这样的伪像。

4.2. Ablation Experiments

我们进行了大量的消融来分析Mask R-CNN。结果显示在表2中并且接下来详细讨论。

架构:表2a显示了具有各种主干的Mask R-CNN。它受益于更深层次的网络(50对101)和先进的设计,包括FPN和ResNeXt。我们注意到并非所有框架都能自动受益于更深层次或更高级的网络(参见[21]中的基准测试)。

多项式vs独立掩码:mask R-CNN去耦掩码和类预测:当现有的盒子分支预测类标签时,我们为每个类生成一个掩码而不会在类之间进行竞争(通过每像素sigmoid和二进制损失)。在表2b中,我们将其与使用每像素softmax和多项损失(如FCN [30]中常用)进行比较。该替代方案耦合了掩模和类预测的任务,并导致掩模AP的严重损失(5.5点)。这表明,一旦实例被分类为整体(通过分支分支),就可以预测二元掩模而不关心类别,这使得模型更容易训练

类特定与类不可知掩码:我们的默认实例预测特定类的掩码,即每类一个m×m掩码。有趣的是,具有类别不可知的掩码的mask R-CNN(即,无论类别如何预测单个m×m输出)几乎同样有效:它具有29.7掩模AP而ResNet-50-C4上的类特定对应物为30.3。这进一步突出了我们的方法中的分工,这在很大程度上解耦了分类和分割。

RoIAlign:我们提出的RoIAlign层的评估见表2c。对于这个实验,我们使用ResNet50-C4主干,其具有步幅16.RoIAlign比RoIPool提高AP约3个点,其中大部分增益来自高IoU(AP75)。 RoIAlign对最大/平均池不敏感;我们在本文的其余部分使用平均值。

此外,我们与MNC [10]中提出的RoIWarp进行比较,该方法也采用双线性采样。正如§3中所讨论的,RoIWarp仍然会量化RoI,失去与输入的对齐。从表2c中可以看出,RoIWarp的表现与RoIPool相当,甚至比RoIAlign差。这突出了正确的对齐是关键

我们还使用ResNet-50-C5主干评估RoIAlign,它具有更大的32像素步幅。我们使用与图4(右)相同的头,因为res5头不适用。表2d显示RoIAlign通过大量7.3点改善掩模AP,并且掩蔽AP75 10.5点(相对改善50%)。此外,我们注意到使用RoIAlign时,使用stride-32 C5功能(30.9 AP)比使用stride-16 C4功能(30.3 AP,表2c)更准确。 RoIAlign在很大程度上解决了使用大步特征进行检测和分割的长期挑战。

最后,当与FPN一起使用时,RoIAlign显示增益为1.5掩模AP和0.5盒AP,其具有更精细的多级步幅。对于需要更精细对齐的关键点检测,即使使用FPN,RoIAlign也显示出大的增益(表6)。

掩码分支:分段是一种像素到像素的任务,我们通过使用FCN来利用掩码的空间布局。 在表2e中,我们使用ResNet-50-FPN骨干网比较多层感知器(MLP)和FCN。 使用FCN可提供超过MLP的2.1掩模AP增益。 我们注意到,我们选择这个主干,以便FCN头的转换层不经过预先训练,以便与MLP进行公平比较。

4.3. Bounding Box Detection Results

我们将Mask R-CNN与表3中最先进的COCO边界框对象检测进行比较。对于此结果,即使训练了完整的Mask R-CNN模型,也只使用分类和框输出推理(掩码输出被忽略)。使用ResNet-101-FPN的mask R-CNN优于所有先前最先进模型的基本变体,包括GRMI的单模型变体[21],COCO 2016检测挑战的获胜者。使用ResNeXt-101-FPN,Mask R-CNN进一步改善了结果,与[39](使用Inception-ResNet-v2-TDM)的最佳先前单一模型条目相比,具有3.0点盒AP的余量。

作为进一步的比较,我们训练了一个版本的Mask R-CNN但没有掩模分支,在表3中用“faster R-CNN,RoIAlign”表示。由于RoIAlign,该模型比[27]中提出的模型表现更好。另一方面,它比mask R-CNN低0.9个点。因此,mask R-CNN在盒子检测上的这种差距仅仅取决于多任务训练的好处

最后,我们注意到mask R-CNN在其掩模和盒子AP之间获得了小的间隙:例如,在37.1(掩模,表1)和39.8(框,表3)之间的2.7个点。这表明我们的方法在很大程度上弥合了对象检测与更具挑战性的实例分割任务之间的差距

4.4. Timing

推论:我们训练了一个ResNet-101-FPN模型,该模型在faster R-CNN [4]的4步训练之后共享RPN和Mask R-CNN阶段之间的特征。该模型在Nvidia Tesla M40 GPU上以每个图像195ms的速度运行(加上15ms的CPU时间,将输出调整为原始分辨率),并在统计上获得与非共享掩模AP相同的掩模AP。我们还报告说ResNet-101-C4变体需要约400毫秒,因为它有更大的箱头(图4),因此我们不建议在实践中使用C4变体。

尽管Mask R-CNN很快,但我们注意到我们的设计并未针对速度进行优化,并且可以实现更好的速度/准确性权衡[21],例如,通过改变图像大小和proposal数量,这超出了本文的范围。

训练:mask R-CNN训练也很快。在COCO trainval35k上使用ResNet-50-FPN进行培训需要32小时进行同步8-GPU实施(每16个图像小批量0.72秒),使用ResNet-101-FPN需要44小时。事实上,快速原型制作可以在不到一天的时间内完成。我们希望这种快速训练将消除这一领域的一个主要障碍,并鼓励更多人对这一具有挑战性的主题进行研究。

5. Mask R-CNN for Human Pose Estimation

 

 

我们的框架可以很容易地扩展到人体姿势估计。 我们将关键点的位置建模为单热掩模,并采用Mask R-CNN来预测K个掩模,每个K关键点类型(例如,左肩,右肘)都有一个。 此任务有助于展示Mask R-CNN的灵活性。

我们注意到,我们的系统利用了人类姿势的最小领域知识,因为实验主要是为了证明Mask R-CNN框架的一般性。 我们期望领域知识(例如,建模结构[6])将与我们的简单方法互补。

实施细节:我们在对关键点进行调整时对细分系统进行微小修改。对于实例的每个K关键点,训练目标是单热m×m二元掩模,其中仅一个像素被标记为前景。在训练期间,对于每个可见的GT关键点,我们最小化m^2  softmax输出上的交叉熵损失(这可以促使检测到单个点)。我们注意到,在实例分割中,K关键点仍然是独立处理的。

我们采用ResNet-FPN变体,关键点头结构类似于图4(右)。关键点头部由一堆八个3×3 512-d conv 层组成,其后是deconv层和2×双线性放大,产生56×56的输出分辨率。我们发现,关键点级定位精度需要相对较高的分辨率输出(与掩模相比)。

模型在所有包含注释关键点的COCO trainval35k图像上进行训练。为了减少过度拟合,因为该训练集较小,我们使用从[640,800]像素随机采样的图像比例进行训练;推断是在800像素的单个尺度上。我们训练90k次迭代,从学习率0.02开始,在60k和80k迭代时将其减少10。我们使用阈值为0.5的边界框NMS。其他细节与§3.1相同。

主要结果和消融:我们评估人员关键点AP(APkp)并试验ResNet-50-FPN骨干;将在附录中研究更多的骨干。表4显示我们的结果(62.7 APkp)比使用多阶段处理管道的COCO 2016关键点检测获胜者[6]高0.9分(见表4的标题)。我们的方法更简单,更快捷。

更重要的是,我们有一个统一的模型,可以在以5 fps运行时同时预测框,段和关键点。添加一个段分支(对于person类别)可以在test-dev上将APkp提高到63.1(表4)。表5中有关于迷你的多任务学习的更多消融。将掩码分支添加到仅限于盒子(即,更快的R-CNN)或仅关键点的版本一致地改进了这些任务。但是,添加关键点分支会略微减少框/掩码AP,这表明虽然关键点检测受益于多任务训练,但它不会反过来帮助其他任务。然而,共同学习所有三个任务使统一系统能够同时有效地预测所有输出(图7)。

我们还研究了RoIAlign对关键点检测的影响(表6)。虽然这个ResNet-50-FPN主干有更好的步幅(例如,最精细的4个像素),但RoIAlign仍然比RoIPool显着改进,并且APkp增加了4.4个点。这是因为关键点检测对本​​地化准确性更敏感。这再次表明对齐对于像素级定位至关重要,包括掩码和关键点。

鉴于Mask R-CNN用于提取对象边界框,掩码和关键点的有效性,我们期望它是其他实例级任务的有效框架

附录A:

后略

 




上一篇:
下一篇:

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注