《Robust Object Tracking with Online
Multipe Instance Learning 》是Babenko发表在IEEE上的一篇关于目标追踪的经典论文。作者在他原有论文《Visual Tracking with Online
Multipe Instance Learning》的基础上稍加修改后发表出来的。主要的内容改动不大,主要是添加了尺度处理和实验比较。这篇博客是对《Robust Object Tracking with Online
Multipe Instance Learning 》的分析理解。
这一篇算是比较旧的论文了,现在之所以拿出来在这里进行分析,主要是因为我最近想写一篇与MILTrack有关的论文,所以请给各位大神勿喷。
同时,在这里详细写下自己对这篇论文的理解,一方面是为了能回顾,二是希望网上的大神们多指点下我这个菜。
废话不多说,现在直入主题。
一、摘要部分:
要处理的问题:在给定第一帧图像中目标的位置或者更少的信息后,如何实现目标追踪。
已有的方法之一:Tracking By Detection。该方法主要是在线训练有判别能力的分类器classifier,将目标从背景中分离出来,这样的分类器根据当前追踪器的状态state自举地(Bootstrap)从当前帧图像中抽取正负样本(实际上这是一种有监督的学习方法)。但是这样的做法就会产生有杂质的样本,从而导致漂移现象(就是追踪失误),降低分类器的性能。
作者的方法:针对上面的问题,作者引入MIL(Multipe
Instance Learning )方法取代传统的有监督学习,以便产生鲁棒性更强参数设定更少的追踪器。基于此,作者又提出了在线MIL算法以便提高实时追踪性能(这是在线MIL算法是本论文的核心所在)。
作者目的就是为了提高目标追踪过程中既能较为准确地跟踪到目标,又能实现追踪过程中实时运行。
为了凸显作者方法的优势,论文中做了定性和定量的分析。
在摘要部分,作者已经提到了Bootstrap、MIL以及在线学习方法,这些是本论文的基础。
(2)在线多示例学习的鲁棒性目标追踪(MILTrack)—背景知识介绍
作者在论文的背景知识(也就是前言)里面主要谈目标追踪的挑战(changes),目标追踪系统中的外观模型(appearance
model)以及本论文关注的重点。
1.目标追踪的挑战(changes)
目标追踪在计算机视觉领域被长期研究,而且有很多的应用。但也存在一些问题和困难,例如缺乏目标的先验知识(个人理解是已知目标的一些固有特征)和被追踪目标的数量与参数(帧图像中的位置,尺度,轮廓等)。虽然已经建立了一些成功的追踪器(tracker)用于特定目标的分类,但是追踪更一般的目标存在更多挑战,因为当目标从帧图像中消失再出现,旋转,变形或者光照变化时目标就会变形,增加了追踪的难度。
(这应该是目标追踪领域里面所面临的共有挑战。)
2.典型目标追踪系统(Typical
Tracking System)
作者认为典型目标追踪系统有三个部分:
外观模型(appearance model):用于评估感兴趣目标在帧图像中某个位置的可能性。
运动模型(motion model):随着时间,与目标在帧图像的位置有关。(可以理解为目标的时间运行轨迹)
搜索策略(search strategy):找到目标在当前帧中最有可能的位置。
本篇论文关注的重点是针对外观模型(appearance model),其他两个部分可以去参考论文中指出来的参考文献《Object
tracking:A survey》。
a. 外观模型(appearance
model)
在一些追踪方法中,有使用到静态模型,要么手动定义,要么使用第一帧信息训练模型。但是静态的方法不能处理目标外形改变。尤其是在目标的先验知识被限制,挑战就变得更加困难。对于这样的问题,一般是建立自适应的外观模型(adaptive
appearance model)
b.自适应的外观模型(adaptive appearance
model)
自适应的外观模型可以很好处理追踪过程中外形改变的问题。然而训练自适应外观模型本身就有很多问题需要解决,因为这样的模型包含了许多需要被调整的参数(即参数设定是一个问题),而且当目标处于部分遮挡情况时模型面临漂移问题。
3.本论文关注的重点
关注重点1--追踪任意目标的问题,被追踪目标除了在第一帧中的位置信息外就没有更多的先验知识。
对此,作者的目标是发展一种用于自适应外观模型更新的方式,追踪系统能处理部分遮挡问题,避免漂移,用最少的参数设定获得更好的性能。为了达到这样的目标,作者引入MIL(Multiple
Instance Learning)学习范例,可以处理数据的模糊性或歧义性(即对样本的正确抽样)。
关注重点2--追踪目标的尺度和位置问题,使用矩形边界框近似这些目标的参数。这种方法被认为可以用在其他的追踪问题上。
通过上面对论文背景知识的介绍,很容易发现,作者是对目标追踪系统中自适应外观模型进行改进。针对自适应外观模型,作者关注任意目标的追踪和目标的尺度与位置问题。通看本论文,作者引入了MIL学习范例,并将其整合到模型中。
所以接下来作者论文主要是谈及自适应外观模型,MIL范例。
详细介绍见后续内容。
(3)在线多示例学习的鲁棒性目标追踪(MILTrack)—自适应外观模型
在设计外观模型时,重要一点是对目标的表达还是对背景知识的表达。
后来已经证明,通过一个有分辨能力的分类器将目标从背景中分离出来,可以获得很好的性能。
(1)对于分类器有很多的改进,但是有个主要的挑战是在更新自适应外观模型时该怎样选择正负样本。(作者本篇论文主要就是对正负样本选择进行改进)
普遍的做法一:选择当前追踪器的位置作为正样本,并从该位置的附近抽取一些样本作为负样本。
存在的问题:当追踪器的位置不精确,模型在更新时又会用到这些正样本作为次优的选择,随着时间推移,就到出现漂移(也就跟踪丢失)
普遍的做法二:选择当前追踪器的位置作为正样本,并从该位置的很近距离范围内抽取一些样本也作为正样本。
存在的问题:由于正样本中包含一些不是很精确的样本,就会导致模型更新时遇到歧义,并使得分辨能力下降。
可选的做法:半监督方法,即在第一帧时给所选的正样本进行标记,后面帧中的训练样本标记不进行标记。
优点:这种方法适合目标不在视频中的场景。
(2)无论是跟踪方面还是检测方面,都会遇到上述问题并且也会用到上面的方法。Viola等认为在检测时使用传统的监督方法本身就存在歧义。为此提出Multiple
Instance Learning(MIL)用于检测。
MIL方法的基本思想是:在训练阶段,样本保存在集合中(这里使用“包”的概念),然后为包贴上标签,而不是为每个样本贴标签(标签是用于指示正负样本)。只要包中至少有一个正样本,就给包贴上正标签。否则就贴上负标签。
当然在不指出包中样本的正确性时,样本的含糊性就会在这个算法中传递。
虽然有上面的问题,而且在缺乏学习知识时,这个方法会更困难实现。但是这个方法灵巧,而且结合弱分类器会产生很好的结果。
(3)本篇论文也提出类似的方法,而且使用基于外观模型的MIL方法用于目标追踪。需要注意,作者关注的是目标追踪不是目标检测,而且目标追踪比目标检测更具有挑战性。
为了使追踪器能包含MIL方法,就需要一种在线的MIL算法。(因为追踪器需要实时追踪,但是单纯的MIL方法不适合实时追踪。)