SC-FEGAN人臉圖像修復任務簡介 - Face Editing Generative Adversarial Network with User's Sketch and Color
Youngjoo Jo, Jongyoul Park. “SC-FEGAN: Face Editing Generative Adversarial Network with User’s Sketch and Color”. In ArXiv preprint.
此論文於 18 Feb 2019 提交至 Arxiv,目前尚未被 Conference 接收。
本文提出名為 SC-FEGAN 的人臉編輯模型,
- 只接受長方形的遮罩進行修補
- 只接受素描
- 只接受RGB顏色
- 無法生成高解析度or細節
整體與 Deepfillv2 - Free-Form Image Inpainting with Gated Convolution 相似,
同樣使用了 Deepfillv2 的 Gated-convolutional,
但捨棄了 Deepfill 系列的 coarse-to-fine 架構,
改而使用 U-Net 架構來生成高解析度圖片(512x512),
在 loss function 的部分,
強調使用了 Style loss 以及 VGG loss 來讓最終生成的圖片效果趨於真實。
執行時間 - 512x512解析度
- 使用 NVIDIA(R) Tesla(R) V100 GPU : 44ms
- 使用 Power9 @ 2.3GHz CPU : 53ms
- 提議使用 Unet 結合 Gated convolutional layers,與 Coarse-Refined 的架構相比運行速度更快以及架構簡單
- 創建 Free-form mask 的資料集
- 使用 SN-patchGAN discriminator 並結合 Style loss 來讓大範圍的圖像修復區塊處理得更精細(如髮型, 耳朵部分
主要架構是使用 Unet 結合 Gated Convolution,
比較特別的是最後的輸出層是採用 Tanh。
而 Discriminator 使用 DeepFillv2 的 SN-patchGAN。
先提一下 Unet 突破了 Deepfill 的 coarse-to-fine 架構如下。
圖片出自 Deepfill - Generative Image Inpainting with Contextual Attention
Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, Thomas S. Huang. Generative Image Inpainting with Contextual Attention.) In CVPR’18
我們的輸入資料共有 9 個 Channel
- 破損的 RGB 圖像 : 3 channels
- Mask 圖像: 1 channel
- Sketch 圖像: 1 channel
- 欲填補的 Color 圖像: 3 channels
- Noise : 1 channel
loss function
這些 loss functions 可去看 partial convolutional 的圖像修復論文: per-pixel losses, perceptual loss, style loss and total variance loss.
G. Liu, F. A. Reda, K. J. Shih, T.-C. Wang, A. Tao, and B. Catanzaro. Image inpainting for irregular holes using partial convolutions. In ECCV’18
- 先定義一些參數
M 遮罩: 1 = 不需修復的部分(Valid), 0 = 需修復的部分(Erased)
Igen: 為我們所生成的圖片
Icomp: 基於 Igen 的圖片,將 Valid 的 Pixels 都填回 Ground Truth
Per-pixel loss 用意為希望不要改動到 Valid 的部分。
此處 σ = 0.05 ((如果 σ > 1 代表我們對 Erased 的部分更注重。
Perceptual loss 使用 Vgg16 的特徵萃取器, 對生成出的圖像與原圖的特徵作 L1 loss。
- Style loss 使用 Vgg16 的特徵萃取器, 對生成出的圖像與原圖的特徵作 Gram matrix。
Style loss 是出自畫風轉換的任務 Leon A. Gatys, Alexander S. Ecker, Matthias Bethge. Image Style Transfer Using Convolutional Neural Networks. In CVPR’16
TV loss
Adversarial loss 透過 GAN 的 Discriminator 做訓練
Total Generative loss
σ = 0.05, β = 0.001, γ = 120, υ = 0.1, ε= 0.001.
個人理解透過 Per-pixel loss 確保 Valid 的 Pixels,
而透過 Icomp 就可以專注改善 Erased 的 Pixels - local,
Igen 就可看作整張圖片是否一致 - global。
- Discriminator loss - WGAN-GP
θ = 10
我目前對於這個 U 沒什麼想法,
不知道為什麼透過這個 U 會改善。
Here, U is a data point uniformly sampled along the straight line between discriminator inputs from Icomp and Igt.
尤其是針對 Free-form 的任務,
要如何生成出相似人會畫出的 Free-form Mask 是一大難題。
此次使用 CelebA-HQ 的資料集,
訓練集使用 29,000 圖片,
測試集使用 1,000 張圖片。
首先會 Resize 成 512 x 512
- 破損的 RGB 圖像 : 3 channels
- Mask 圖像: 1 channel
- Sketch 圖像: 1 channel
- 欲填補的 Color 圖像: 3 channels
- Noise : 1 channel
Free-form : 隨機畫線,而非以往的給定長方形 Mask
GFC segmentation : 定位出人臉/髮型的 Mask,看圖可發現我們的 Color 只會看人臉的部分,超出人臉的部分無視。
HED edge detector : 將人臉的邊緣化出來,以製造 Sketch 的圖片。
頭髮部分的 Mask 隨機給定
