目錄:算法
圖像配準:從SIFT到深度學習vim
什麼是圖像配準網絡
傳統的基於特徵的方法app
關鍵點檢測和特徵描述函數
特徵匹配性能
圖像變換學習
深度學習方法測試
特徵提取優化
Homography學習ui
監督學習
無監督學習
其餘方法
強化學習
複雜的轉換
圖像配準(Image Registration)是計算機視覺中的基本步驟。在本文中,咱們首先介紹基於OpenCV的方法,而後介紹深度學習的方法。
圖像配準就是找到一幅圖像像素到另外一幅圖像像素間的空間映射關係。這些圖像能夠是不一樣時間(多時間配準),不一樣傳感器在不一樣地方拍攝(多模式配準)。這些圖像之間的空間關係能夠是剛性(rigid)^1(平移和旋轉),仿射(affine)^2(例如剪切),單應性^3(homographies)或複雜的大變形模型(complex large deformations models)。
圖像配準具備普遍的應用,適用於同一個場景中有多張圖像須要進行匹配或疊加。在醫學圖像領域以及衛星圖像分析和光流(optical flow)方面很是廣泛。
CT掃描和MRI配準
在本文中,咱們將介紹圖像配準的幾種不一樣方法。
自21世紀初以來,圖像配準主要使用基於特徵的方法。這些方法有三個步驟:關鍵點檢測和特徵描述,特徵匹配,圖像變換。簡單的說,咱們選擇兩個圖像中的感興趣點,將參考圖像(reference image)與感測圖像(sensed image)中的等價感興趣點進行關聯,而後變換感測圖像使兩個圖像對齊。
基於特徵的方法
關鍵點就是感興趣點,它表示圖像中重要或獨特的內容(邊角,邊緣等)。每一個關鍵點由描述符表示,關鍵點基本特徵的特徵向量。描述符應該對圖像變換(定位,縮放,亮度等)具備魯棒性。許多算法使用關鍵點檢測和特徵描述:
SIFT^4(Scale-invariant feature transform)是用於關鍵點檢測的原始算法,但它不能免費用於商業用途。SIFT特徵描述符對於均勻縮放,方向,亮度變化和對仿射失真不變的部分不會發生變化。
SURF^5(Speeded Up Robust Features)是一個受SIFT啓發的探測器和描述符。它的優勢是很是快。它一樣是有專利的。
ORB^6(Oriented FAST and Rotated BRIEF)是一種快速的二進制描述符,它基於 FAST^7(Features from Accelerated Segment Test)關鍵點檢測和 BRIEF^8(Binary robust independent elementary features)描述符的組合。它具備旋轉不變性和對噪聲的魯棒性。它由OpenCV實驗室開發,是SIFT有效的免費替代品。
AKAZE^9(Accelerated-KAZE)是KAZE^10快速版本。它爲非線性尺度空間^11提供了快速的多尺度特徵檢測和描述方法,具備縮放和旋轉不變性。
這些算法均可以在OpenCV中輕鬆使用。在下面的例子中,咱們使用了AKAZE的OpenCV實現。其餘算法的代碼大體相同,只須要修改算法的名稱。
import numpy as np
import cv2 as cvimg = cv.imread('image.jpg')gray= cv.cvtColor(img, cv.COLOR_BGR2GRAY)akaze = cv.AKAZE_create()kp, descriptor = akaze.detectAndCompute(gray, None)img=cv.drawKeypoints(gray, kp, img)cv.imwrite('keypoints.jpg', img)
圖像關鍵點
更過關於特徵提取和描述的文檔
一旦在一對圖像中識別出關鍵點,咱們就須要將兩個圖像中對應的關鍵點進行關聯或「匹配」。其中一種方法是
BFMatcher.knnMatch()
。這個方法計算每對關鍵點之間的描述符的距離,並返回每一個關鍵點的k個最佳匹配中的最小距離。
而後咱們設定比率來保持正確率。實際上,爲了使匹配更可靠,匹配的關鍵點須要比最近的錯誤匹配更靠近。
import numpy as np
import cv2 as cvimport matplotlib.pyplot as pltimg1 = cv.imread('image1.jpg', cv.IMREAD_GRAYSCALE)img2 = cv.imread('image2.jpg', cv.IMREAD_GRAYSCALE)# 初始化 AKAZE 探測器akaze = cv.AKAZE_create()# 使用 SIFT 查找關鍵點和描述kp1, des1 = akaze.detectAndCompute(img1, None)kp2, des2 = akaze.detectAndCompute(img2, None)# BFMatcher 默認參數bf = cv.BFMatcher()matches = bf.knnMatch(des1, des2, k=2)# 旋轉測試good_matches = []for m,n in matches: if m.distance < 0.75*n.distance: good_matches.append([m])# 畫匹配點img3 = cv.drawMatchesKnn(img1,kp1,img2,kp2,good_matches,None,flags=cv.DrawMatchesFlags_NOT_DRAW_SINGLE_POINTS)cv.imwrite('matches.jpg', img3)
匹配的關鍵點
OpenCV中有更多關於特徵匹配的實現方法
在匹配至少四對關鍵點以後,咱們就能夠將一個圖像轉換爲另外一個圖像,稱爲圖像變換^12(image warping)。空間中相同平面的兩個圖像經過單應性變換^13(Homographies)進行關聯。Homographies是具備8個自由參數的幾何變換,由3x3矩陣表示圖像的總體變換(與局部變換相反)。所以,爲了得到變換後的感測圖像,須要計算Homographies矩陣。
爲了獲得最佳的變換,咱們須要使用RANSAC算法檢測異常值並去除。它內置在OpenCV的findHomography方法中。同時也存在RANSAC算法的替代方案,例如LMEDS:Least-Median魯棒方法。
# 選擇匹配關鍵點
ref_matched_kpts = np.float32([kp1[m[0].queryIdx].pt for m in good_matches]).reshape(-1,1,2)sensed_matched_kpts = np.float32([kp2[m[0].trainIdx].pt for m in good_matches]).reshape(-1,1,2)# 計算 homographyH, status = cv.findHomography(ref_matched_kpts, sensed_matched_kpts, cv.RANSAC,5.0)# 變換warped_image = cv.warpPerspective(img1, H, (img1.shape[1]+img2.shape[1], img1.shape[0]))cv.imwrite('warped.jpg', warped_image)
變換後的圖像
OpenCV對這三個步驟進行了綜合敘述
目前大多數關於圖像配準的研究涉及深度學習。在過去的幾年中,深度學習使計算機視覺任務具備先進的性能,如圖像分類,物體檢測和分割。
深度學習用於圖像配準的第一種方式是用於特徵提取。卷積神經網絡設法得到愈來愈複雜的圖像特徵並進行學習。2014年以來,研究人員將這些網絡應用於特徵提取的步驟,而不是使用SIFT或相似算法。
2014年,Dosovitskiy等人提出了一種通用的特徵提取方法,使用未標記的數據訓練卷積神經網絡。這些特徵的通用性使轉換具備魯棒性。這些特徵或描述符的性能優於SIFT描述符以匹配任務。
2018年,Yang等人開發了一種基於相同思想的非剛性配準方法。他們使用預訓練的VGG網絡層來生成一個特徵描述符,同時保留卷積信息和局部特徵。這些描述符的性能也優於相似SIFT的探測器,特別是在SIFT包含許多異常值或沒法匹配足夠數量特徵點的狀況下。
SIFT和基於深度學習的非剛性配準方法描述符的結果
研究人員利用神經網絡直接學習幾何變換對齊兩幅圖像,而不只僅侷限於特徵提取。
在2016年,DeTone等人發表了 Deep Image Homography Estimation,提出了HomographyNe迴歸網絡,這是一種VGG風格模型,能夠學習兩幅相關圖像的單應性。該算法具備以端到端的方式同時學習單應性和CNN模型參數的優點,不須要前兩個階段的過程!
HomographyNet迴歸網絡
網絡產生八個數值做爲輸出。以監督的方式進行訓練,並計算輸出和真實單應性之間的歐幾里德損失。
Supervised Deep Homography Estimation
與其餘有監督方法同樣,該單應性估計方法須要有標記數據。雖然很容易得到真實圖像的單應性,但在實際數據上要昂貴得多。
基於這個想法,Nguyen等人提出了一種無監督的深度圖像單應性估計方法。他們保留了相同結構的CNN,可是使用適合無監督方法的損失函數:不須要人工標籤的光度損失(photometric loss)函數。相反,它計算參考圖像和感測變換圖像之間的類似性。
L1光度損失函數
他們的方法引入了兩種新的網絡結構:張量直接線性變換和空間變換層。咱們能夠簡單地使用CNN模型輸出的單應性參數得到變換後的感測圖像,而後咱們使用它們來計算光度損失。
Unsupervised Deep Homography Estimation
做者聲稱,與傳統的基於特徵的方法相比,這種無監督方法具備至關或更高的準確率和魯棒性,而且具備更快的執行速度。此外,與有監督方法相比,它具備更好的適應性和性能。
強化學習方法做爲醫學應用的經常使用方法正在獲得愈來愈多的關注。與預約義的優化算法相反,在這種方法中,咱們使用訓練好的代理進行配準。
強化學習方法的配準可視化
2016年,Liao 等人首先使用強化學習進行圖像配準。他們的方法基於有監督算法進行端到端的訓練。它的目標是經過尋找最佳的運動動做序列來對齊圖像。這種方法優於最早進的方法,但它只能用於剛性轉換。
強化學習也能夠用於更復雜的轉換。在Robust non-rigid registration through agent-based action learning論文中,Krebs等人使用人工代理優化變形模型參數。該方法對前列腺MRI圖像的患者間的配準進行實驗,在2-D和3-D中表現出了較好的結果。
在當前圖像配準研究中佔較大比例的是醫學影像。一般,因爲患者的局部變形(因呼吸,解剖學變化等),兩個醫學圖像之間的變換不能簡單地經過單應矩陣描述,這須要更復雜的變換模型,例如由位移矢量場表示微分同胚(diffeomorphisms)。
心臟MRI圖像上的變形網格和位移矢量場示例
研究人員開始嘗試使用神經網絡來估計這些具備許多參數的大變形模型。
一個例子是上面提到的Krebs等人的強化學習方法。
2017年De Vos等人提出了DIRNet。它使用CNN來預測控制點網格,該控制點用於生成位移矢量場,而後根據參考圖像變換感測圖像。
來自MNIST兩個輸入圖像的DIRNet示意圖
Quicksilver配準解決了相似的問題。Quicksilver使用深度編碼-解碼器網絡直接在預測圖像上進行變形。