计算机视觉工坊人脸识别技术介绍和表情识别最新研究( 二 )

(3)基于RGB-D的人脸识别
RGB-D图像是包含了彩色图像和深度图，前者是从红、绿、蓝颜色通道获取的图像，后者是指包含与视点的场景对象的表面的距离有关的图像通道，两者之间是相互配准。通过对彩色图像和多帧融合后的深度图像分别进行预训练和迁移学习，在特征层进行融合，提高人脸识别率。
二、表情识别最新研究
1) Facial Emotion Recognition with Noisy Multi-task Annotations
摘要
从面部表情可以推断出人类的情感。但是，在常见的情感编码模型中，包括分类和维度模型，面部表情的注释通常会非常嘈杂。为了减少人为标注多任务标签的工作量，文中引入了带有嘈杂的多任务注释的面部表情识别新问题。对于这个新问题，文中建议从联合分布匹配的角度进行计算，其目的是学习原始人脸图像和多任务标签之间更可靠的关联，从而减少噪声影响。采用一种新方法来在统一的对抗性学习游戏中启用情绪预测和联合分布学习。在广泛的实验中进行的评估研究了所提出的新问题的实际设置，以及所提出的方法在合成嘈杂的带标签CIFAR-10或实际嘈杂的多点干扰方法上优于最新竞争方法的明显优势标记为RAF和AffectNet的任务。
本文探讨的是嘈杂的多任务标签中面部表情识别的问题。实际应用中，两种最常用的面部情绪编码模型是分类和维数，但是通过从可用的情感标签中进行模型的学习容易产生不好的结果，因此，文中提出的公式是从联合分布匹配的角度解决此问题的，旨在利用数据和多任务标签之间的相关性来减少标签噪声的影响。
该文为解决人脸情感识别的实际案例提供了一些贡献，主要可概括为以下三点：(1)提出了一个带有嘈杂的多任务标签的面部表情识别新问题，该问题的目标是易于获得的廉价多任务注释；(2)提出了一种广义化的公式，在数据和异构多任务标签之间具有明确的联合和边际分布匹配；(3)引入了一种新的对抗学习模型，以基于联合和边际分布的约束条件来优化对情绪预测的训练，这被证明适合于新提出的问题。
带有噪音标签的面部情感识别仅在带有噪音标签的面部图像上训练鲁棒模型。传统的方法是直接用噪声标签分布对噪声建模，但是传统的条件概率建模具有几个明显的缺点，例如转换矩阵缺乏约束条件收敛到真值等。针对于此，本文利用匹配两个联合分布的关键思想，考虑在两对数据和标签上的以下两个联合概率分布：

本文插图
由于对现实世界数据的数据分布的显式概率密度函数进行建模难以计算，因此将两个联合分布与精确建模进行匹配通常是不可行的。为克服该问题，本文采用了生成对抗模型方法。其中，编码器的学习函数以从输入图像中推断出干净的标签，解码器的学习函数以生成面部图像，来自嘈杂标签的对应表达式。整体架构如下图所示

本文插图
为了匹配编码器和解码器捕获的联合分布，在生成器和鉴别器之间进行对抗游戏。鉴别器是专门为匹配面部图像，噪声矢量以及GY和GX的多任务标签的组的联合分布而设计。对于联合分布对齐，一种自然的方法是将分别从编码器和解码器采样的数据在网络中以进行对抗训练。但是，每个组中的数据是高度异构的，因此直接串联是不合适的。为了减少数据和多任务标签之间的异质性，本文采用多个网络流，并将所有网络流的输出送入网络，完整的目标函数如下，

本文插图
文中提出的生成器和鉴别器能够在统一框架内优化基于情绪预测的损失和基于分布匹配的约束。文中根据此方案设计了最小—最大目标函数：