简介

ICCV2019，一篇关于利用无标签数据的人脸识别。很简单的一个想法，却很有趣。论文链接。

转载：ICCV 2019 | 爱奇艺提出半监督损失函数，利用无标签数据优化人脸识别模型。

爱奇艺拥有海量优质的视频资源，对这些视频资源的结构化分析，尤其是分析视频中出现的人物尤为重要。目前，人脸识别技术已经应用到爱奇艺多个产品中，如“AI雷达”和“只看TA”。 “AI雷达”分析当前视频画面中出现的人物，“只看TA”分析整个视频中人物出现的所有场景片段。这两个产品底层都依赖人脸识别技术。

训练一个高性能的人脸识别模型，采用监督学习的方式，需要大量的带标签的人脸数据，通常数据量越大，训练的模型性能越好；人物越多，识别性能越好。目前公开库中较大的人脸数据集MS-Celeb-1M包括约10万个人物的1000万张图片；iQIYI-VID包括约1万个人物的64万个视频片段，其中iQIYI-VID-FACE包含约1万个人物600万张人脸图像。

然而，获取某个人的多张图片是比较困难的，需要人工标注。这在一定程度上阻碍了模型性能的提升。同时，人脸识别是个open-set问题，有标签数据中的几万个人物只是地球上几十亿人的极小一部分，训练出来的模型泛化能力可能不足。

为了解决上述问题，我们提出用无标签数据优化人脸识别模型。区别于其他半监督学习方法，我们的方法对无标签数据没有过多限制，只需基本保证这人不出现在有标签数据中。无标签数据的加入，可以轻易扩大训练人物数量，提升模型泛化能力。

UIR Loss

为了利用无标签数据，我们设计了半监督损失函数，Unknown Identity Rejection（UIR）Loss。人脸识别是open-set问题，将开放环境中的人物类别分为两类：有标签类($S$)和无标签类($U$)，$S ∩ U= ∅$。训练过程中，对于有标签类，每个样本特征需要逼近分类层对应类别的类心向量；对于无标签类，它不属于分类层的任何一个类，模型需要“拒绝”它们，即特征与每个分类层类心距离都足够远。如下图(a)，$W_1$ 和 $W_2$ 表示两个分类层类心向量，圆点表示样本特征。图(b)中，加入无标签类 $W_u$ 后，为了 $W_u$ 距离 $W_1$、$W_2$ 足够远，会使得有标签类别在特征空间上更稀疏，类间距离更大。