Abstract
该文不采用利用rgb图和初始化3D面部表情渲染的方式, 是端对端的, 可以避免复杂的3D渲染.我们从两个方面综合DNN,利用多任务损失函数和融合DNN来改善面部表情重构;利用多任务损失函数, 可以将3D人脸重构分为3D人脸重构和3D人脸表情重构两个部分. 由于中性面部形状是类固定的,所以用网络的高层特征表示,而面部表情用低层或中层网络层特征表示。
Method
用一系列的形状和融合形状(blendshape)去表示人脸的3D形状.
其中S是目标脸, \bar{S}S¯是平均人脸形状, U_{d}Ud是中性人脸的3D扫描的主成分, \alpha_{d}αd是识别参数向量(identity parameter vector); U_{e}Ue 是有表情的人脸和中性人脸的偏移(offset)所组成的主成分, \alpha_{e}αe是相对应 的表情参数向量.
Network architecture
Traning
-
原始输入的图片经过一个人脸检测器检测出人脸部分, 裁剪的方式为将扩大原始检测框的0.25倍和选择最大的边来裁剪并将图片缩放成180*180.网络的输出包括 identity parameter vector 和 expression parameter vector.
-
Traning data
我们提出用真实的2D数据来初始化网络, 用合成的2D数据来微调络. 我们利用跟Richardson^{[1]}Richardson[1]相似的策略来产生合成的人脸数据来训练我们的神经网络.对于BFM 3D模型我们用[2]提供的形状基和[3, 4]提供的融合形状基. 对于AFM模型, 我们从FRGC2和BU-3DFE数据库中选择203个中性脸用[5]提出的方法去建立形状基, 为了简单起见, 我们不建立blendshape. 总共我们利用BFM和AFM合成了10000张不同的3D人脸. 对于每个人脸我们利用不同的面部姿势, 光照和面部表情合成25张2D图片.
Cost functions
损失函数选择训练得到的3D脸和 ground truth 之间的差距.
这里的c \in \{e, d\}c∈{e,d}. 总的损失函数为
合成数据
由于没有大量的3D-2D人脸数据, 我们类似于[1]去产生合成数据. 先用随机参数生成10000张中性脸和对应的纹理. 然后通过表情参数生成不同的面部表情. 因为用随机的表情参数汇产生大量的不可信的3D人脸. 所以我们的表情估计参数是从[3]中得来的.
接下来是相机参数和光照的设定.
暂时写到这里,后补.
参考文献
- [1] E. Richardson, M. Sela, and R. Kimmel. 3D face reconstruc- tion by learning from synthetic data. In Proc. International Conference on 3D Vision, pages 460–469, California, USA, October 25-28 2016. 2, 3, 4, 8
- [2] P. Paysan, R. Knothe, B. Amberg, S. Romdhani, and T. Vet- ter. A 3D face model for pose and illumination invariant face recognition. In Proc. 6th IEEE International Conference on Advanced Video and Signal Based Surveillance, pages 296– 301, Genoa, Italy, Sep. 2-4 2009. 3, 4, 5
- [3] X. Zhu, Z. Lei, X. Liu, H. Shi, and S. Z. Li. Face alignment across large poses: A 3D solution. In Proc. IEEE Conference on Computer Vision and Pattern Recognition, pages 146 – 155, Las Vegas, NV, June 26-July 1 2016. 2, 3, 4, 5
- [4] C. Cao, Y. Weng, S. Zhou, Y. Tong, and K. Zhou. Face- warehouse: A 3D facial expression database for visual com- puting. IEEE Transactions on Visualization and Computer Graphics, 20(3):413–425, March 2014. 4