guodong's blog

master@zhejiang university
   

目标检测模型 faster R-CNN

1、faster R-CNN简介

faster R-CNN可以看成有两个网络,一个网络用来预测目标区域位置region proposal network(RPN),另一个网络是在这些区域中检测目标类别。它和fast R-CNN之间主要的区别是,fast R-CNN是用选择性搜索selective search来生成目标区域,faster R-CNN则使用RPN网络,RPN节省了很多时间,因为RPN中有很多权值共享。

faster R-CNN结构如下:

2、anchor介绍

faster R-CNN首次提出了anchor概念,anchor在网络中起了很大的作用。一个anchor就是一个box。faster r-cnn默认预设9个anchor,比如在某尺寸为600*800图片的坐标(320,320)处的9个anchor分布情况如下:

  • 三种颜色表示三种尺度,128*128,256*256 ,512*512
  • 单独观察某尺度的anchor/box ,这三个boxes长宽比分别为1:1,1:2,2:1

假设步长为16,也就是卷积之后的尺寸大小为39*51,有1989个坐标点。这导致会有1989*9 = 17901的候选boxes,这些数量远小于滑动窗和金字塔,比如fast R-CNN。

这些anchors对VOC数据集和COCO数据集都表现的比较良好,我们也可以自己去预设定一些不同大小的anchors,比如对行人专门设定anchor时,我们不需要考虑那种很短很大或者那种正方形的anchor,设置合适的anchor可以加快速度和准确率

3、region of proposal network (RPN)

RPN网络用来预测包含背景或前景的box,然后在优化box尺寸:

3.1  The Classifier of Background and Foreground

首先第一步是训练一个分类器,要解决的问题是如何利用ground-truth的boxes来训练anchors,如何区分背景和前景。基本思路是如果anchor和GT的box有较高的交集overlap时被认定为为目标前景,如果较低的overlap时就被认为背景。实现方法见这个链接

第二个问题是anchor的特征是什么

我们假设输入图像600*800经过CNN后的feature map 大小39*51,(stride=16)。feature map中每个坐标有9个anchor,每个anchor有两个可能的labels(背景,前景)。如果我们设feature map的深度为18(9 anchors*2 labels),那每个anchor的值为0或1来表示前景或背景。正好可以使用softmax或logistic regression activation 函数来预测labels。

还有需要注意的一件事就是如果我们想复用一个训练好的网络时,需要feature map上每个位置的感受野包含它所代表的anchor,否则特征向量没有足够的信息来预测,具体实现的方法参看这个链接

在overfeat结构中,它只使用none-overlapping 卷积和pooling filtrers来确保感受野的每个位置都覆盖它们自己的感受区域而不相互重叠。在faster R-CNN中,感受野却经常相互遮盖,这将导致RPN具有位置感知的能力,如果需要了解overfeat,请点击这个链接

3.2 The Regressor of Bounding Box

我们需要标记的是含有目标的boes,所以feature map的深度可以变为32(9 anchors * 4 positions)

论文对坐上坐标点(x,y)使用了smooth-L1 loss,对高和宽使用了对数误差,和fast R-CNN类似。

整个loss包括RPN误差和分类误差

4、ROI pooling

RPN后我们会得到一些不同尺寸的boxes,通过 region of interest pooling 可以很轻松的将feature maps减少到同样尺寸。不同于有固定尺寸的mas-pooling,ROI pooling将输入的feature map分成k个大致相同的区域,然后再应用max -pooling。因此,ROI pooling的输出总是k个无关输入尺寸的。对于ROI pooling详细解释,请看这个链接

5、training

两种方式:alternatively train the RPN, and the final classifier and regressor; train them at the same time jointly. The later is 1.5 times faster with similar accuracy




上一篇:
下一篇:

头像

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注