(二) Dynamic Siamese (DSiam)——从论文角度综述
发布日期:2021-06-18 12:11:48 浏览次数:34 分类:技术文章

本文共 2598 字,大约阅读时间需要 8 分钟。

Learning Dynamic Siamese Network for Visual Object Tracking 论文综述

Motivation

尽管Siamese网络(SiamFC 实时)在提升目标跟踪准确性和实时性方面取得了巨大成功,但是他们和基于分类&更新的跟踪器(MDNet, DeepSRDCF, STCT 1~2帧/S)比仍有较大差距,主要是因为没有处理好目标的时序变化。基于匹配的方法在跟踪时缺乏在线更新过程,从而不能捕捉目标上的时序变化。

为了捕捉时序上的外观变化,简单的想法是:直接使用之前帧运行的跟踪结果替换目标模板,从而适应 目标的外观变化。但是,跟踪结果出现错误时会使得模板失效。针对这一问题,作者在跟踪时提出了在线更新的方法,即提出了dynamic Siamese network,通过一个快速变换的学习模型使得跟踪器能够有效地学习目标的外观变化以及从前面帧的学习中抑制背景干扰信息。由于这个变换可以在FFT域快速解得。

接着作者采用multi-layer fusion方法将多层的网络特征进行融合输出。此外,DSiam是采用联合训练的方式对整个视频进行训练(而不再是image pair )。

Method

DSiam结构

  1. DSiam运行方法如上图所示。图中第一个虚线回合出是输出的SiamFC结果,后面一个是DSiam执行的结果。

    在SiamFC中,其置信图得分的计算过程如下:
    S t l = c o r r ( f l ( O 1 ) , f l ( Z t ) ) S_t^l = corr(f^l(O_1),f^l(Z_t)) Stl=corr(fl(O1),fl(Zt))
    作者在DSiam上把跟踪当作是快速模板匹配以及在线变换学习的联合问题,从而由上图所示,DSiam的匹配过程如下:
    S t l = c o r r ( V t − 1 l ∗ f l ( O 1 ) , W t − 1 l ∗ f l ( Z t ) ) S_t^l = corr(V_{t-1}^l * f^l(O_1), W_{t-1}^l * f^l(Z_t)) Stl=corr(Vt1lfl(O1),Wt1lfl(Zt))其中, ∗ * 代表循环卷积操作(可以在频域内快速解得)。 V t − 1 l V_{t-1}^l Vt1l W t − 1 l W_{t-1}^l Wt1l代表了2个变换过程,用来更新目标模板 O 1 O_1 O1和搜索域 Z t Z_t Zt V t − 1 l V_{t-1}^l Vt1l 作者认为是目标外观变化的变换, W t − 1 l W_{t-1}^l Wt1l认为是背景干扰抑制的变换。这两个变换都是可更新的。

  2. 有了 V t − 1 l V_{t-1}^l Vt1l W t − 1 l W_{t-1}^l Wt1l,下面就是如何求得这个数了。

    (1) V t − 1 l V_{t-1}^l Vt1l:在第t-1帧时,需要学习到从第一帧 O 1 O_1 O1到t-1帧 O t − 1 O_{t-1} Ot1的外观变化。为了学习该变化,作者事先假设目标的变化在时序上是smooth,所以作者将 f O t l f^l_{O_t} fOtl强行相似于 f O t − 1 l f^l_{O_{t-1}} fOt1l。从而 V t − 1 l V_{t-1}^l Vt1l代表了在该变化下的最线性化的变化矩阵。从而得到的目标方程如下,在频域下的解亦可得到。
    在这里插入图片描述
    (2) W t − 1 l W_{t-1}^l Wt1l:设 I t − 1 \mathbf{I}_{t-1} It1代表以第t-1帧预测的结果(不是以实际GT中心裁剪的)为中心,裁剪的 255 × 255 × 3 255 \times 255 \times 3 255×255×3的区域为 G t − 1 \mathbf{G}_{t-1} Gt1。从而作者将 G t − 1 \mathbf{G}_{t-1} Gt1与高斯权重图相乘得到 G ‾ t − 1 \overline {\mathbf{G}}_{t-1} Gt1。为了学习到 W t − 1 l W_{t-1}^l Wt1l, 作者认为 G t − 1 \mathbf{G}_{t-1} Gt1的特征应该相似于 G ‾ t − 1 \overline {\mathbf{G}}_{t-1} Gt1的特征。从而得到的目标方程如下,在频域下的解亦可得到。
    1

  3. Elementwise multi-layer fusion

    在这里插入图片描述
    将多个Score map的结果进行融合,多个Score map来在不同的特征层。作者在原文中采用了AlexNet的不同卷积层事先了多个不同的特征层。

  4. 训练方法

    采用了联合训练的方法,在某组视频的第t帧上,其得到的损失值如下:
    在这里插入图片描述
    接着采用梯度下降方法更新学习的参数。包括 elementwise weight maps, two RLR layers and the regularization parameters λ v \lambda_v λv and λ w \lambda_w λw. RLR’ layer 代表V和W的学习过程. ‘Eltwise’ layer aims to multiply its input with a weight map(该weight事先给定). J t J_t Jt和SiamFC中得到的label类似。

Experiment

在这里插入图片描述

这边的speed不是FPS,而是和标准speed相比的倍数。

Conculsion

作者主要为了从时序信息中学习到知识,通过 V V V学习到时序中的外观变化(事先假设外观变化是平滑的), W W W增强前景的学习,进而抑制背景。通过频域变换快速的解决这个问题。最后考虑了多个特征的融合情况,多个特征来自AlexNet的不同层输出。最后采用手工优化的方式对待学习的参数进行优化。


  1. https://openaccess.thecvf.com/content_ICCV_2017/papers/Guo_Learning_Dynamic_Siamese_ICCV_2017_paper.pdf

转载地址:https://blog.csdn.net/BearLeer/article/details/115110171 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:(三) SiamRPN从论文角度介绍
下一篇:(一)Siamese目标跟踪——SiamFC训练和跟踪过程:从论文细节角度出发

发表评论

最新留言

感谢大佬
[***.8.128.20]2024年03月31日 12时58分32秒