行人再识别技术新探:从面向普通re-ID的PCB到面向partial re-ID的VPM
发布日期:2021-07-01 02:37:58 浏览次数:3 分类:技术文章

本文共 3666 字,大约阅读时间需要 12 分钟。

本文围绕着“我们真的需要具象的语义部件来学习行人部件特征吗?”这一问题而展开,讨论了从面向普通 re-ID 的 PCB 到面向 partial re-ID 的 VPM 的行人再识别技术的新升级。

 

在行人再识别(person re-identification)中, 部件特征能带来额外的准确率提升,如何更好地学习部件特征呢?本文将从同一个视角——“真的需要语义部件来学习行人部件特征吗?”——介绍旷视研究院在行人再识别领域的工作进展。

 

首先,本文将回顾 2018 ECCV 提出的面向普通 re-ID 的新方法——PCB ,接着详细介绍旷视研究院 2019 CVPR 针对 Partial re-ID 提出的新方法——VPM 。

 

从这个视角可以发现,本文涉及的两个方法具有同一个动机:没有具象的语义部件,仅仅依靠抽象的形式部件,同样能很好(甚至更好)地学习部件特征。

 

同样在这一视角下,还可直接把 VPM 看成 PCB 的扩展——由于采用抽象部件,从而可借助简单高效的自监督学习,额外地解决 partial re-ID 这一特殊难题。

 

首先解释一下何为具象的语义部件。当提取部件特征而划分行人时,我们直觉上希望这些部件符合人类的视觉习惯,比如分为“头部、胸部、腿部、四肢”等等。语义分割符合人类习惯,是具象的,甚至从生理结构本质上讲,这种划分也是科学的。

 

但是,这种部件划分必需吗?从计算机视觉的角度去理解一个部件,还用迁就人类习惯吗?一个部件如何区分于其它部件,成为一个独立部件呢?本文认为,一个区域只要足够稳定,即是一个很好的部件。

从 PCB 说起

PCB 一文其实提出两个方法——PCB 和 RPP,其中 PCB 是非常简单的部件学习 baseline,相关研究员已很熟悉。如图 1 所示,PCB 最大的特点是在卷积特征层进行均匀水平分割产生相应的部件特征。

 

后续一些方法把 PCB 作为 baseline,也取得了大幅提升,比如引入多粒度的均匀分割的 MGN。此外,旷视研究院还将此应用于大规模实际数据集,同样取得可观的提升。

       

图 1:PCB 网络结构示意

 

关于 PCB,解读很多,但是唯独没人注意到这样一个 insight:其实,PCB 采用的是抽象划分。它的抽象性在于,我们并不知道每一个 part 到底是什么。例如,图 1 part 1 可能对应了大部分人的“头部 + 1/2 个胸部”。这算什么 part ?如果非要命名,只能勉强称为“半头半胸”。

 

但是,只要这个部件对于大部分图像足够稳定,那么,深度模型就能够在学习过程中形成这样一个概念:“半头半胸”是一个部件。

 

简而言之,在 PCB 学习过程中,每个特征提取 branch 各自“记住”所负责部件的样子,尽管并未显式地定义各个部件是什么。照这么看,RPP 也就不再费解了(很多人对 RPP 训练时无需 part 标签,却能够识别各个 part 表示不能理解)——既然 branch 知道如何处理部件,它自然会会知道应该接收什么部件,并改善其划分。

 

由此,RPP 通过像素级部件再分配,使得每个 branch 可自由选择像素;并依据“记忆”中所熟悉的相应部件的概念,提纯各个部件。具体做法不再赘述,相信结合这一理解看 PCB,RPP 也将迎刃而解。

为什么 Partial re-ID 更难?

实际的 re-ID 系统经常遭遇一个困难:行人仅仅被部分成像,如图 2 所示。

       

图 2:在 partial re-ID 中,每个行人仅仅被部分成像,且缺失比例并不固定

 

直觉上,大家往往认为 partial re-ID 更难,要解决这个问题,就必须深入了解其更难的背后原因。首先,部分成像意味着信息损失,除此之外,还有两项额外的困扰,如下图中 (a),(b) 所示:

       

图 3:部分成像下 re-ID 的困难 (a),(b) 及解决思路 (c)

 

(1) 首先,部分成像加剧了人体的空间错位。在图 3 (a) 中,尽管两幅图像其实含有同一个行人,且姿势、视角完全一样,但由于部分成像,导致二者之间存在很严重的空间错位;

 

(2) 另外,部分成像还引入了额外的干扰噪声。在图 3 (b) 中,左图对应的下半身区域不仅不再提供应有的鉴别线索,还产生了相对右图的干扰噪声(如果直接提取左右两幅图像的全局特征并作对比)。

 

为解决上述两个问题,提高 partial re-ID 准确率,一个非常直观的做法是——在比较两幅图像时,仅仅比较其共同可见的部分。然而这时,直觉和习惯思维又很容易将我们拽到使用语义部件这样一个做法上,即:给定两幅待比较的 partial image,先区分哪些语义部件可见,并提取相应的语义部件特征,比较二者共同可见的语义部件的部件特征。

 

但是,沿袭 PCB 工作的思路,本文继续坚定地认为:具象的语义部件不是必须,抽象的部件也奏效、甚至更好,从而有了如图 3 (c) 所示的思路:在完整图像上预先定义部件划分,然后在 partial image 上识别哪些部件可见,为每个抽象部件提取相应的部件特征。

 

为此,旷视研究院提出 VPM,关于它的详细介绍可参见“”。这篇解读主要侧重介绍抽象部件的使用及其相应的优点:可以借助自监督信息学习辨识部件。

VPM:仅仅使用自监督学习,就获得了部件感知能力

如果 VPM 模型可以感知哪些部件(或区域)可见,那么首先必须给出每个部件的定义。旷视研究院采用自监督学习让 VPM 获取该能力,方法流程如图 4 所示。       

图 4:VPM 网络结构示意

 

本文在完整的行人图像上预先定义一个固定的部件分割,将图像分成 p 个部件(如图 2 分成上、中、下三个部件,即 p=3)。对于每一幅行人图像,VPM 输出固定数量的部件特征,以及相应的部件可见性得分。

 

注意,即使当前输入图像有一些部件不可见(比如,图 4 输入图像的下端部件实际不可见),VPM 仍会为所有部件分别产生一个部件特征(包括那些不可见部件),但不可见部件的可见性得分将很低(趋于零)。这样,VPM 就能区分有效和无效的部件特征,并对后者不予采信。

 

为实现上述功能,VPM 在卷积层输出 Tensor T 上附加一个部件定位器和一个部件特征提取器。部件定位器其实类似图像分割器,在 T 上预测每个 pixel 的所属部件;部件特征提取器则为每个部件生成一个相应特征。

 

上述过程中,自监督学习的构建非常简单和直观。本文在完整的行人图像上预先定义一个固定的部件分割,将图像分成 p 个部件,然后裁剪图像并将其缩放到固定尺寸输入给 VPM。由于裁减参数是可控、且可自动获取的,从而自然知道哪些部件是可见(如图中的上、中两个部件)或不可见的(如图中的下端部件)。

 

这一过程其实并没有给出诸如“部件 A 到底是什么样”这样一个定义,而是生成了很多“部件 A 的实例”,让数据驱动,教会 VPM 认知各个部件。

 

从这个角度讲,VPM 延续了 PCB 的思路,只不过额外引入了自监督这一手段。自监督学习使得 VPM 获得了 PCB 所不具备的一项能力——感知可见与不可见区域,使得 VPM 不仅能在传统全身 re-ID 中获得接近的准确率,在 Partial re-ID中更是获得了 state of the art 的性能。

 

值得强调的是,VPM 相对 PCB 几乎没有计算量的明显增加,从而提供了一种实际可应用的 partial re-ID 特征学习方案。

讨论

1)语义部件总是不如抽象部件吗?

上述两项工作 PCB 和 VPM 均分别使用抽象部件,分别在普通 re-ID 和 partial re-ID 问题中,获得了不亚于(甚至是超过)语义部件方法的性能。那么是否能够断定说,对于 re-ID 问题,语义部件总是不如抽象部件呢?

 

根据人脸识别、验证的经验来讲,答案是否定的。受限于目前行人语义分割误差较大(在 re-ID 数据集上)的现状,使用语义部件提取行人部件特征结果不够理想,但随着 human parsing或姿态估计方法的进步,本文仍然相信语义部件有潜力提供更好的行人再识别解决方案。

2)Partial re-ID 已经被解决了吗?

在 VPM 中,可以发现,对于上下半身的遮挡,VPM 完全胜任,但对于左右遮挡,VPM 仍然有待提高。虽然能够明确感知左右部件的缺失,但 VPM 无法充分挖掘行人图像经常左右对称这样一个先验。左右遮挡在实际应用中也很常见,尤其是在人流密集的场景下。旷视研究院对该问题已经展开具体研究,并设计了一套行之有效的方法。期待将来就此与大家进行交流。

传送门 1

 

欢迎各位同学关注旷视研究院视频分析组(以及知乎专栏「旷视Video组」:https://zhuanlan.zhihu.com/r-video),简历可以投递给负责人张弛本文由智源研究联合旷视研究院一同推出)。

传送门 2

欢迎大家关注如下 旷视研究院 官方微信号????

转载地址:https://megvii.blog.csdn.net/article/details/103289097 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:旷视研究院发布最大商品识别数据集,推动新零售自动收银场景落地
下一篇:旷视首席科学家孙剑:10年扎在书堆里,13年磨砺成首席

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年04月24日 23时16分25秒