guodong's blog

PhD@zhejiang university
   

弱监督目标检测WSOD概述

ppt来源:https://hbilen.github.io/wsl-cvpr18.github.io/assets/wsod.pdf

其中第6,7,8,9页说明的是WSOD的挑战,包括:

  1. 同类之间差异,比如表面差异,变形,尺度,以及纵横比;
  2. 背景干扰;
  3. 遮挡。
  4. 定义通用性时存在歧义
    1. 部分与整体的差异:定义人时,是只要有脸就是人,还是要包括上肢或者全身才是算人。
    2. 内容上下文的差异:比如摩托车的定义,如果人在上面,或者有多个摩特车时怎么办。
  5. 优化难,包括重定位和重训练,比如对初始化敏感(局部最小),或者过拟合等。

第10,11页讲的是评估WSOD

第15页讲的是,多实例学习:bags = images, instances = windows。目标是正样本,训练windows分类器。

16页是标准MIL流水管线,首先是初始化正样本(比如窗口空间),然后重新训练目标检测器,SVM或CNN方法,最后再重新定位目标。(看图)。

  1. window sapce:如何生成bags,可以使用滑动窗口方法,每个图片生成100K多个窗口,比较致密,在4D空间里具有多平移尺度和长宽比。也可以使用目标提议的方法,每张图片生成2k个窗口,比较离散,经常被用以WSOD方法里。
  2. 初始化:比较简单的策略是使用整个图像作为window,然后减去一个margin。还可以用构建一个图,来寻找初始的box,利用的性质:1.相似度,比如出现在许多正样本图片中。2.有区分度,在负样本图片中的box,显然不相似。3.互补,能够捕捉多种模式。
  3. 重定位目标实例:一张图片里,只有一个正实例,在所有的proposals里,选择出得分最高的即为结果
  4. 重训练目标检测器。(待补充)和监督学习不一样,每张正样本图片只有一个正实例,并且没有负实例。

关于第3,4步可以优化的地方:

relax max操作,使用exp求和来代替max。

使用更鲁棒性的优化方式:self-paced Learning,multi fold MIL,self-taught learning。

利用先验知识:

  1. 找到匹配性比较好的一对窗口
  2. 使用上下文(比如分割背景和前景,选择语义上感兴趣的iou,或者在content上选择outstanding的roi)
  3. 使用objectness(量化窗口包含任何类的目标的可能性,使重新定位接近目标并远离背景,指向整个目标而不是子区域)在WSOL中经常用到。
  4. 也有其他先验的知识,比如color contrast,segment straddling,edges straddling。
  5. 甚至是对称性,互斥性(假设,一个box只能紧紧的覆盖一个目标实例)。
  6. 尺度(课程学习:从大目标到小目标;根据估算的尺寸,对proposal进行加权;需要从一个小的集合里训练一个尺寸估计器)
  7. motion;

在特征表达上:SIFT+BAG-of-words or fisher vectors, HOG templates

端到端的训练CNN:将检测分成两个子任务,一个分类流,对每个类别都分配一个region。一个检测流,给定一个类别,挑选最有潜力的窗口。需要注意的是,这不是一个标准的MIL,可能可像一个mini-batch MIL。

 




上一篇:
下一篇:

头像

guodong

没有评论


你先离开吧:)



发表评论

电子邮件地址不会被公开。 必填项已用*标注