这篇文章解决长期跟踪的问题:目标对象由于变形、快速运动、遮挡和出视野引起的外观变化。在这一背景下,我们将跟踪任务分解成平移和尺度变化。文章表明,事件背景之间的相关性能大幅提升平移估计的精度和可靠性。并且从置信度最高的帧去学习判别式相关滤波器来估计尺度的改变是非常有效的。此外,我们训练了在线的随机厥分类器来重新检测目标,以防跟踪失败。基于大规模的数据集的大量实验结果表明了提出的算法,与现在最先进的方法相比,在效率、精度和稳定性上都表现良好。
目标跟踪是计算机视觉应用中最基础的问题,视觉跟踪中一个典型的场景是跟踪一个未知的物体,在后续帧中用目标框初始化。这篇文章着眼于长期视觉跟踪的问题,目标物体由于变形、快速运动、遮挡和出视野引起等有着剧烈的外观变化。
我们的方法建立在对之前工作的两个主要观察结果。首先,两个连续帧之间的变化很小,因为时间间隔很小(不超过0.04S),目标周围的内容很可能保持不变即使物体被严重遮挡,因此,对包含目标及其周围环境的时间关系进行建模很重要。我们提出了提出了一种基于相关性的核脊回归方法,来对包含目标及其周围环境的外观模型进行编码。由提出的特征构建的自适应模板能有效抵抗严重遮挡、快速移动以及大的变形。这个方法与现有的容易漂移地相关滤波器跟踪算法有很大的不同。我们的主要贡献是在长期视觉跟踪中,这个算法有效的使用相关滤波器对环境和时间信息进行建模。
其次,增强长期跟踪器中的检测模块来估计尺度变化和长期跟踪由于遮挡和出视野引起跟踪失败时的重检测是非常重要的。对于尺度估计,我们单独训练了一个相关滤波器,基于最可靠的帧。使用Hog特征来建立多尺度目标金字塔来详尽的寻找最优比例尺度。对于目标重检测,基于计算效率的考虑,我们不使用目标相关滤波器来扫描整个帧,因为这个滤波器是使用高维hog特征训练得到的。我们使用随机厥分类器训练在线的检测器,在它被激活时扫描窗口。
我们进一步解决了检测跟踪方法的了两个问题,跟踪通常被表述为一个在线学习问题,目标是学到一个外观分类器,从背景中将目标判别出来。第一个就是众所周知的稳定性与可塑性困境。如果使用更多可靠的样本来训练分类器,当使用有噪声的样本来更新模型时,对于遮挡和漂移就估计稳定。然而这种情况没有考虑到外形的变化,在长期跟踪过程中不可能表现的好。另一方面,高度自适应的在线分类器,在噪声更新的情况下极易引发漂移。我们的算法有效的减轻了这种困境,通过对时间上下帧相关性与目标外形使用两个回归模型,基于两个不同自适应率的相关滤波器。事件背景回归器设计成面对重大变形和严重遮挡的平移估计又很强的自适应性。目标滤波器在自适应上比较谨慎,应用在尺度估计的外形金字塔。因此,我们的方法能有效的对外形变化自适应,并且减缓了漂移的风险。在线分类器的另外一个问题是抽样的模棱两可,负样本对于训练稳定是分类器是很必要的,然而两分类样本并不能很有效的展示样本的空间关系。通过把相关运算转换成傅里叶域的元素点积,我们的回归模型考虑了输入特征的所有循环漂移,就像带有高斯标签的训练样本,从而缓解了样本问题。
这个工作的主要贡献是解决了长期视觉跟踪存在的问题,通过将跟踪过程分解平移和对目标的尺度估计,并偕同一个互补的重检测方案。平移估计依赖于一个时间上下帧回归模型,对变形、光照变化、背景模糊、以及快速运动有鲁棒性。建立目标金字塔,使用目标回归模型来决定尺度的变化。我们的方法有效的缓解了模型更新时引起的漂移问题,在大量图片序列、大尺度变化时表现的很鲁棒。此外,我们提出了一个新颖的方案来激活目标重检测,以防跟踪失败,并且使用目标回归器来判断是否要进行更新,我们将提出的算法放在50个具有挑战性的图片序列的数据集上进行评估。大量的实验结果表明提出的长期相关跟踪算法与目前最优秀的算法相比,在精度、有效性和鲁棒性上都表现良好。
视觉跟踪在许多应用上都被广泛研究。这一部分我们讨论与这项工作密切相关的算法:相关跟踪器和检测跟踪。
相关跟踪:
相关滤波器在许多应用上被广泛使用,例如目标检测与识别。因为可以很方便的将其转移到傅里叶域上进行元素的点乘,相关滤波器在视觉跟踪上由于计算效率引起了相当大的关注。例如:
MOSSE在灰度图像上学习最小均方根误差(MOSSE),学得的滤波器对目标的外观编码,在每一帧进行更新。,因为使用了相关滤波器,MOSSE的速度能达到一秒几百帧。
CSK,在核空间使用相关滤波器,在最近的数据集测试中达到了最高的速度。CSK使用光照强度特性,在KCF跟踪算法上使用hog特征使得性能进一步提高。
Danelljan发现了目标的颜色属性,通过在高斯核空间上匹配多通道特征来学习自适应相关滤波器。Adaptive color attributes for real-time visual tracking
Zhang 在滤波器学习时结合上下文的信息,基于连续相关反应对尺度变化建模。Fastvisual tracking via dense spatio-temporal context learning.
DSST使用hog特征学习自适应多尺度相关滤波器,来解决目标的尺度变化。
然而这些方法没有解决模型在线更新的关键性问题,所以这些方法容易受到漂移的影响,,对解决长时间跟踪问题和出视野问题不太有效。
检测跟踪:
为了缓解视觉跟踪模型更新时稳定性和可塑性之间的困境。
TLD将跟踪问题分解为跟踪、学习和检测,跟踪和检测之间相互促进...在长时间跟踪问题上表现良好。Zhang使用不同的自适应率将不同的分类器组合在一起,设计一个熵度量来融合所有的跟踪结果。我们的算法与这两种方法有相似之处,在跟踪要素上又有显著的不同,他们是基于Lucas-Kanade方法,没有考虑到上下文的信息。
再这篇文章中,我们我们使用一个脊回归模型来学习上下文的时间相关性,而不是布尔分类器。为了缓解在线模型更新时噪声样本的问题,Hare 考虑到样本在搜索区域里的空间分布,提出学习一个联合结构输出来预测目标的位置,该算法显示表现良好(Struck)。因为相关运算是在傅里叶域中进行计算,并且将输入特征的所有循环变化都考虑到了,回归模型有效解决了带有在线布尔分类器的在线跟踪器所存在的歧义问题。