Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?论文笔记

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?

摘要：

首先，我们对面部表情数据进行零偏CNN训练，并根据我们的知识，在两个表达式识别基准上实现最先进的表现：扩展Cohn-Kanade（CK +）数据集和多伦多面部数据集（TFD）。然后，我们通过可视化最大程度地激发卷积层中的不同神经元的空间模式来定性分析网络，并显示它们如何类似于面部动作单元（FAU）。最后，我们使用CK +数据集中提供的FAU标签来验证在我们的过滤器可视化中观察到的FAU确实与被摄取的面部动作一致。

1. 引言

Paul Ekman提出了面部动作编码系统（FACS），其中列举了这些区域，并描述了每个面部表情如何被描述为多个动作单元（AU）的组合，每个动作单元对应于脸部特定的肌肉组。然而，让计算机准确地学习传达情感的脸部部分被证明是一件不平凡的事情。
以前的面部表情识别工作可以分为两大类：基于AU的/基于规则的方法和基于外观的方法。基于AU的方法将明确地检测个体AU的存在，然后基于Friesen和Ekman提出的组合对一个人的情感进行分类。不幸的是，每个AU检测器都需要仔细的手工工程来确保良好的性能。另一方面，基于外观的方法从一般的面部形状和纹理模拟了一个人的表情。

在过去几年中，计算机视觉中许多已经存在的问题，从卷积神经网络（CNN）作为一种基于外观的分类器的兴起而受益匪浅。不幸的是，很少的工作去看看有CNN到底对于识别的提升有多大的帮助。

在本文中，我们寻求以下问题的答案：CNN可以提高情绪识别数据集/基线的性能，他们学习什么？我们建议通过对已建立的面部表情数据集进行CNN训练，然后通过可视化网络中的各个过滤器来分析他们学到的内容来做到这一点。在这项工作中，我们应用了Zeiler和Fergus [32]和Springenberg等人提出的可视化技术。其中网络中的单个神经元被激发，并且它们对应的空间模式使用解卷积网络在像素空间中显示。当可视化这些歧视性的空间格局时，我们发现许多过滤器是由与面部动作单元（FAU）相对应的面部激动的。这些空间模式的一个子集如图1所示。

2. Related Work
在大多数面部表情识别系统中，主要机械与传统机器学习管道相当吻合。更具体地说，将面部图像传递给试图将其分类为几个（通常为7个）表达类之一的分类器：1.愤怒，2.厌恶，3.恐惧，4.中性，5.快乐，6.悲伤，和7.惊喜。在大多数情况下，在传递给分类器之前，将面部图像预先处理并提供给特征提取器。直到最近，大多数基于外观的表情识别技术依赖于手工制作的特征，特别是Gabor小波，Haar特征和LBP特征，以便使不同表达类的表示更多辨别。

3. Our Approach
3.1. Network Architecture
对于我们在本文中提出的所有实验，我们使用经典的前馈卷积神经网络。我们使用的网络在图2中以可视方式显示，分别由具有64,128和256个滤波器的三个卷积层组成，滤波器尺寸分别为5×5，后跟ReLU（整流线性单元）激活功能。Max pooling layers 放置在前两个卷积层之后，而在第三个之后应用quadrant pooling 。 quadrant pooling
之后是一个具有300个隐藏单元的全连接层，最后是一个用于分类的softmax层。

3.2. Network Training
具体参数参见论文。

4. Experiments and Analysis

我们在实验中使用两个面部表情数据集：扩展的Cohn-Kanade数据库（CK +）和多伦多面部数据集（TFD）

4.1. Performance on Toronto Face Database (TFD)

首先，我们通过对TFD集评估其性能分析CNN。

4.2. Performance on the Extended Cohn-Kanade Dataset (CK+)

我们现在将结果呈现在CK +数据集上。 CK +数据集通常包含八个标签（愤怒，蔑视，厌恶，恐惧，快乐，中立，悲伤和惊喜）。然而，许多作品忽略了标签为中性或蔑视的样本，只评估了六种基本情绪。因此，为了确保公平比较，我们培训了两种不同的模式。

4.3. Visualization of higher-level neurons

读者会注意到，CK +区别的空间格局非常明确，并且与面部动作单元很好地对应，例如：AU12：唇角拉拔器（行2,6和9），AU9：鼻子皱纹器（第3行）和AU27：口腔伸展（第8行）

4.4. Finding Correspondences Between Filter Activations and the Ground Truth Facial Action Units (FAUs)

因此，我们显示神经网络中的某些神经元隐含地学习在给定相对“松散”的监控信号（即情绪类型：愤怒，快乐，悲伤等）时检测脸部图像中的特定FAU。最令人鼓舞的是，这些结果似乎证实了我们对CNN如何作为基于外观的分类器的直觉。

5. Conclusions
在这项工作中，我们在质量和数量上都展现了CNNs进行情感识别的培训，确实能够建立与FAU强烈对应的高级功能。定性地，我们通过可视化在我们学习的网络的卷积层中最大程度地激发不同过滤器的空间模式，显示了脸部的哪些部分产生了最具歧视性的信息。同时，定量地，我们使用CK +数据集中给出的FAU标签将可视化滤波器的数值激活与对象的实际面部动作相关联。最后，我们演示了零偏置CNN如何在扩展的Cohn-Kanade（CK +）数据集和多伦多面部数据集（TFD）上实现最先进的识别精度，