參考資料:matthewearl.github.io/2015/07/28/…python
翻譯:小馬哥git
編輯:船長github
還記得嗎?去年冬天,在國外 AI 圈有個事情鬧得很火:知名論壇 Reddit 上突然出現一個叫 deepfakes 的大神,藉助神經網絡實現了人臉替換,讓一些好萊塢女星「出演」了 AV。算法
後來根據這個項目又衍生了一個叫 FakeAPP 的桌面應用,可讓尼古拉斯·凱奇這樣的明星爲所欲爲的「出演」任何電影,固然換成任何人的臉部均可以。咱們曾詳細分享過這些項目:數組
怎麼樣,是否是被這種換臉的效果驚到了?其實即使是不借助神經網絡,咱們用 Python 和一些 Python 庫也能實現換臉,只不過替換的是靜態圖像中的人臉,但憑此也足以顯示出 Python 的「神祕力量」。ide
咱們下面就傳授一下這門 Python 「換臉」大法。函數
在本文,咱們會介紹如何經過一段簡短的 Python 腳本(200行左右)將一張圖片中面部特徵自動替換爲另一張圖片中的面部特徵。也就是實現下面這樣的效果:ui
具體過程分爲四個步驟:
本腳本的完整代碼地址見文末。
本腳本使用 dlib 的 Python bindings 來提取面部標誌:
dlib 實現了 Vahid Kazemi 和 Josephine Sullivan 所著論文《One Millisecond Face Alignment with an Ensemble of Regression Tree》一文中描述的算法。算法自己很是複雜,可是經過 dlib 的接口實現它很是簡單:
PREDICTOR_PATH = "/home/matt/dlib-18.16/shape_predictor_68_face_landmarks.dat"
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor(PREDICTOR_PATH)
def get_landmarks(im):
rects = detector(im, 1)
if len(rects) > 1:
raise TooManyFaces
if len(rects) == 0:
raise NoFaces
return numpy.matrix([[p.x, p.y] for p in predictor(im, rects[0]).parts()])
複製代碼
get_landmarks() 函數 以 numpy 數組的形式接收圖像,並返回一個 68x2 的元素矩陣。矩陣的每一行與輸入圖像中特定特徵點的 x,y 座標相對應。
特徵提取器(predictor)須要一個大概的邊界框做爲算法的輸入。這將由傳統的面部檢測器(detector)提供。該面部檢測器會返回一個矩形列表,其中每個矩形與圖像中的一張人臉相對應。
生成 predictor 須要預先訓練好的模型。該模型可在 dlib sourceforge repository 下載。
如今咱們已經有兩個面部標誌矩陣,其中的每一行都含有某個面部特徵的座標(如第 30 行給出了鼻尖的座標)。咱們如今只要弄明白如何旋轉、平移和縮放第一個向量的全部點,使其儘量匹配第二個向量中的點。同理,一樣的變換可用於將第二張圖疊加在第一張圖上。
爲使其更加數學化,咱們設 T,s 和 R,並求以下等式最小值:
其中,R 是一個 2x2 的正交矩陣,s 是一個標量,T 是一個二維向量,pi 和 qi 是以前計算出的面部標誌矩陣行標和列標。
事實證實,這類問題用常規普氏分析法(Ordinary Procrustes Analysis)能夠解決:
def transformation_from_points(points1, points2):
points1 = points1.astype(numpy.float64)
points2 = points2.astype(numpy.float64)
c1 = numpy.mean(points1, axis=0)
c2 = numpy.mean(points2, axis=0)
points1 -= c1
points2 -= c2
s1 = numpy.std(points1)
s2 = numpy.std(points2)
points1 /= s1
points2 /= s2
U, S, Vt = numpy.linalg.svd(points1.T * points2)
R = (U * Vt).T
return numpy.vstack([numpy.hstack(((s2 / s1) * R,
c2.T - (s2 / s1) * R * c1.T)),
numpy.matrix([0., 0., 1.])])
複製代碼
咱們逐步分析一下代碼:
1.將輸入矩陣轉換爲浮點型。這也是後續步驟的必要條件。
2.將每個點集減去它的矩心。一旦爲這兩個新的點集找到了一個最佳的縮放和旋轉方法,這兩個矩心c1和c2就能夠用來找到完整的解決方案。
3.一樣,將每個點集除以它的標準誤差。這消除了縮放誤差。
4.使用奇異值分解(singular value decomposition)計算旋轉部分。請參閱維基百科有關Orthogonal Procrustes Problem的文章,以瞭解它的具體工做原理。
5.將整個變換過程以仿射變換矩陣形式返回。
以後,返回結果能夠插入 OpenCV 的 cv2.warpAffine 函數,將第二個圖片映射到第一個圖片上:
def warp_im(im, M, dshape):
output_im = numpy.zeros(dshape, dtype=im.dtype)
cv2.warpAffine(im,
M[:2],
(dshape[1], dshape[0]),
dst=output_im,
borderMode=cv2.BORDER_TRANSPARENT,
flags=cv2.WARP_INVERSE_MAP)
return output_im
複製代碼
若是此時咱們試圖直接疊加面部特徵,很快會發現一個問題:
兩幅圖像之間不一樣的膚色和光線形成了覆蓋區域邊緣的不連續。因此咱們嘗試修正它:
COLOUR_CORRECT_BLUR_FRAC = 0.6
LEFT_EYE_POINTS = list(range(42, 48))
RIGHT_EYE_POINTS = list(range(36, 42))
def correct_colours(im1, im2, landmarks1):
blur_amount = COLOUR_CORRECT_BLUR_FRAC * numpy.linalg.norm(
numpy.mean(landmarks1[LEFT_EYE_POINTS], axis=0) -
numpy.mean(landmarks1[RIGHT_EYE_POINTS], axis=0))
blur_amount = int(blur_amount)
if blur_amount % 2 == 0:
blur_amount += 1
im1_blur = cv2.GaussianBlur(im1, (blur_amount, blur_amount), 0)
im2_blur = cv2.GaussianBlur(im2, (blur_amount, blur_amount), 0)
# Avoid divide-by-zero errors.
im2_blur += 128 * (im2_blur <= 1.0)
return (im2.astype(numpy.float64) * im1_blur.astype(numpy.float64) /
im2_blur.astype(numpy.float64))
複製代碼
如今效果怎麼樣?咱們瞅瞅:
此函數試圖改變圖 2 的顏色來匹配圖 1,也就是用 im2 除以 im2 的高斯模糊,而後乘以 im1 的高斯模糊。在這裏咱們使用了顏色平衡( RGB scaling colour-correction),但不是直接使用全圖的常數比例因子,而是採用每一個像素的局部比例因子。
經過這種方法也只能在某種程度上修正兩圖間的光線差別。好比說,若是圖 1 的光線來自某一邊,但圖 2 的光線很是均勻,校色後圖 2 也會出現有一邊暗一些的狀況。
也就是說,這是一個至關粗糙的解決方案,並且關鍵在於大小適當的高斯內核。若是過小,圖 2 中會出現圖 1 的面部特徵。若是太大,內核會跑到被像素覆蓋的面部區域以外,並變色。這裏的內核大小爲瞳距的 0.6 倍。
用一個蒙版(mask)來選擇圖 2 和圖 1 應被最終顯示的部分:
值爲 1 (白色)的地方爲圖 2 應顯示的區域,值爲 0 (黑色)的地方爲圖 1 應顯示的區域。值在 0 和 1 之間的地方爲圖 1 圖 2 的混合區域。
這是生成上述內容的代碼:
LEFT_EYE_POINTS = list(range(42, 48))
RIGHT_EYE_POINTS = list(range(36, 42))
LEFT_BROW_POINTS = list(range(22, 27))
RIGHT_BROW_POINTS = list(range(17, 22))
NOSE_POINTS = list(range(27, 35))
MOUTH_POINTS = list(range(48, 61))
OVERLAY_POINTS = [
LEFT_EYE_POINTS + RIGHT_EYE_POINTS + LEFT_BROW_POINTS + RIGHT_BROW_POINTS,
NOSE_POINTS + MOUTH_POINTS,
]
FEATHER_AMOUNT = 11
def draw_convex_hull(im, points, color):
points = cv2.convexHull(points)
cv2.fillConvexPoly(im, points, color=color)
def get_face_mask(im, landmarks):
im = numpy.zeros(im.shape[:2], dtype=numpy.float64)
for group in OVERLAY_POINTS:
draw_convex_hull(im,
landmarks[group],
color=1)
im = numpy.array([im, im, im]).transpose((1, 2, 0))
im = (cv2.GaussianBlur(im, (FEATHER_AMOUNT, FEATHER_AMOUNT), 0) > 0) * 1.0
im = cv2.GaussianBlur(im, (FEATHER_AMOUNT, FEATHER_AMOUNT), 0)
return im
mask = get_face_mask(im2, landmarks2)
warped_mask = warp_im(mask, M, im1.shape)
combined_mask = numpy.max([get_face_mask(im1, landmarks1), warped_mask],
axis=0)
複製代碼
咱們來分析一下:
最後,將蒙版應用於最終圖像:
output_im = im1 * (1.0 - combined_mask) + warped_corrected_im2 * combined_mask
複製代碼
附:本項目代碼地址:Github