End-to-end 3D face reconstruction with deep neural networks

Abstract

  该文不采用利用rgb图和初始化3D面部表情渲染的方式, 是端对端的, 可以避免复杂的3D渲染.我们从两个方面综合DNN,利用多任务损失函数和融合DNN来改善面部表情重构;利用多任务损失函数, 可以将3D人脸重构分为3D人脸重构和3D人脸表情重构两个部分. 由于中性面部形状是类固定的,所以用网络的高层特征表示,而面部表情用低层或中层网络层特征表示。

Method

  用一系列的形状和融合形状(blendshape)去表示人脸的3D形状.

S = \bar{S} + U_{d} * \alpha_{d} + U_{e} * \alpha_{e},S=S¯+Udαd+Ueαe,

其中S是目标脸, \bar{S}S¯是平均人脸形状, U_{d}Ud是中性人脸的3D扫描的主成分, \alpha_{d}αd是识别参数向量(identity parameter vector); U_{e}Ue 是有表情的人脸和中性人脸的偏移(offset)所组成的主成分, \alpha_{e}αe是相对应 的表情参数向量.

Network architecture

image

Traning

  • 原始输入的图片经过一个人脸检测器检测出人脸部分, 裁剪的方式为将扩大原始检测框的0.25倍和选择最大的边来裁剪并将图片缩放成180*180.网络的输出包括 identity parameter vector 和 expression parameter vector.

  • Traning data
    我们提出用真实的2D数据来初始化网络, 用合成的2D数据来微调络. 我们利用跟Richardson^{[1]}Richardson[1]相似的策略来产生合成的人脸数据来训练我们的神经网络.对于BFM 3D模型我们用[2]提供的形状基和[3, 4]提供的融合形状基. 对于AFM模型, 我们从FRGC2和BU-3DFE数据库中选择203个中性脸用[5]提出的方法去建立形状基, 为了简单起见, 我们不建立blendshape. 总共我们利用BFM和AFM合成了10000张不同的3D人脸. 对于每个人脸我们利用不同的面部姿势, 光照和面部表情合成25张2D图片.

Cost functions

  损失函数选择训练得到的3D脸和 ground truth 之间的差距.

E_{c} = ||U_{c} * \hat{\alpha}_{c} – U_{c} * \alpha_{c}||_{2}^{2}Ec=Ucα^cUcαc22

这里的c \in \{e, d\}c{e,d}. 总的损失函数为

E = \lambda_{d} E_{d} + \lambda_{e} E_{e}.E=λdEd+λeEe.

合成数据

  由于没有大量的3D-2D人脸数据, 我们类似于[1]去产生合成数据. 先用随机参数生成10000张中性脸和对应的纹理. 然后通过表情参数生成不同的面部表情. 因为用随机的表情参数汇产生大量的不可信的3D人脸. 所以我们的表情估计参数是从[3]中得来的.

 接下来是相机参数和光照的设定.

暂时写到这里,后补.

参考文献

  • [1] E. Richardson, M. Sela, and R. Kimmel. 3D face reconstruc- tion by learning from synthetic data. In Proc. International Conference on 3D Vision, pages 460–469, California, USA, October 25-28 2016. 2, 3, 4, 8
  • [2] P. Paysan, R. Knothe, B. Amberg, S. Romdhani, and T. Vet- ter. A 3D face model for pose and illumination invariant face recognition. In Proc. 6th IEEE International Conference on Advanced Video and Signal Based Surveillance, pages 296– 301, Genoa, Italy, Sep. 2-4 2009. 3, 4, 5
  • [3] X. Zhu, Z. Lei, X. Liu, H. Shi, and S. Z. Li. Face alignment across large poses: A 3D solution. In Proc. IEEE Conference on Computer Vision and Pattern Recognition, pages 146 – 155, Las Vegas, NV, June 26-July 1 2016. 2, 3, 4, 5
  • [4] C. Cao, Y. Weng, S. Zhou, Y. Tong, and K. Zhou. Face- warehouse: A 3D facial expression database for visual com- puting. IEEE Transactions on Visualization and Computer Graphics, 20(3):413–425, March 2014. 4