CVPR2017
https://arxiv.org/abs/1703.03872
GitHub: https://github.com/Joker316701882/Deep-Image-Matting
抠图问题还是比较难的,简单的用一个公式表达如下:
左边是图像位置 i 的 RGB 值,右边是 前景和背景的线性组合。 matte estimation alpha 是未知的。对于每个像素,有3个已知量,7个未知量,所以这个一个 underconstrained 问题,即变量个数大于方程个数。
当前针对抠图问题的方法主要有两个问题:
1)当前方法将 matting equation 设计为两个颜色的线性组合,即将抠图看做一个 color problem染色问题,这种方法基于一个假设就是颜色是一个可区分的特征,distinguishing feature(通常还加入了位置信息)。但是当背景和前景的颜色空间分布重叠时,这种方法的效果就不是很好了。
2) 当前基于抠图的数据库很小。 the alphamatting.com dataset 只有27张训练图像,8张测试图像。
本文解决了上述两个问题。针对数据库问题,我们建立了一个大的抠图数据库。建立方式如下:
找一些背景比较单一的图像,这些图像的真值比较容易得到。将人扣出来,然后再将其放到背景比较复杂的图中去。
4 Our method
整个网络分两个部分,一个是 deep convolutional encoder-decoder network,is penalized by the alpha prediction loss and a novel compositional loss 输入图像块和对应的 trimap,输出 alpha prediction。第二部分是一个小的卷积网络用于 refines 前面个网络的输出 alpha prediction。
4.1. Matting encoder-decoder stage
Losses: 我们这里设计了两个 Losses: 第一个loss 是 the alpha-prediction loss,是 预测的 alpha values 和alpha values的真值的绝对差。第二个loss是 the compositional loss ,预测的RGB颜色值和对应的真值绝对差。.
On an modern i7 CPU, it takes approximately 20 seconds for a medium-sized image (e.g. 1K×1K)
and 1 minutes for a large image (e.g. 2K×2K).
4.2. Matting refinement stage
Network structure: 4个卷积层,输入是 图像块和预测的 alpha prediction。