深度學習在醫學影像中的研究進展及發展趨勢算法
王麗會1,2, 秦永彬1,2網絡
1 貴州省智能醫學影像分析與精準診斷重點實驗室,貴州 貴陽 550025架構
2 貴州大學計算機科學與技術學院,貴州 貴陽 550025app
摘要:醫學影像是臨牀診斷的重要輔助工具,醫學影像數據佔臨牀數據的90%,所以,充分挖掘醫學影像信息將對臨牀智能診斷、智能決策以及預後起到重要的做用。隨着深度學習的出現,利用深度神經網絡分析醫學影像已成爲目前研究的主流。根據醫學影像分析的流程,從醫學影像數據的產生、醫學影像的預處理,到醫學影像的分類預測,充分闡述了深度學習在每一環節的應用研究現狀,並根據其面臨的問題,對將來的發展趨勢進行了展望。框架
關鍵詞:深度學習 ; 醫學影像 ; 圖像處理 ; 人工智能 ; 卷積神經網絡dom
論文引用格式:機器學習
王麗會,秦永彬. 深度學習在醫學影像中的研究進展及發展趨勢[J]. 大數據, 2020, 6(6): 83-104.ide
WANG L H, QIN Y B. State of the art and future perspectives of the applications of deep learning in the medical image analysis[J]. Big Data Research, 2020, 6(6): 83-104.函數
1 引言
醫學成像已成爲臨牀診斷的重要輔助手段,其包括計算機斷層掃描(computed tomography,CT)成像、磁共振成像(magnetic resonance imaging,MRI)、正電子發射斷層掃描(positron emission tomography,PET)成像、超聲(ultrasound, US)成像、X射線(X-ray)成像等。如何藉助大數據和人工智能技術,深刻挖掘海量的醫學圖像信息,實現基於影像數據的智能診斷、智能臨牀決策以及治療預後,已成爲目前的研究熱點。
深度學習屬於機器學習的分支,是目前實現人工智能技術的重要手段。隨着深度學習技術在圖像處理和計算機視覺領域的普遍應用,利用深度學習技術輔助臨牀診斷和決策已成爲醫學圖像分析領域的研究重點。醫學影像智能診斷的流程可大體分爲3個步驟,首先獲取大量高質量的圖像數據,而後對圖像進行預處理,最後挖掘圖像信息,進行分析預測。其具體環節如圖1所示。其中海量、高質量的圖像數據是深度學習訓練的基礎,圖像預處理(如配準、感興趣區域提取)是後續分析準確度的基本保障,挖掘信息、創建預測模型是臨牀智能決策的關鍵。所以,本文將分別圍繞這3個方面,闡述深度學習在醫學圖像處理分析流程中每一個環節的主要應用現狀,最後總結深度學習在醫學影像研究中的發展趨勢。工具
圖1 醫學圖像處理分析過程
2 醫學圖像復原、重建與合成
2.1 醫學圖像復原與重建
海量、高質量的醫學圖像數據是利用深度學習技術實現影像精準診斷的基礎。然而,因爲成像設備和採集時間等因素的限制,在醫學成像的過程當中不可避免地會受到噪聲、僞影等因素的影響。同時,針對某些成像方式,須要在成像分辨率和採集時間上進行折中,例如在CT成像中,爲了下降輻射的影響,須要減小投影採集數目;在磁共振成像中,爲了減小患者運動或者器官自身運動引發的僞影,須要下降K空間的採樣率以減小採集時間,然而低採樣率會嚴重影響圖像的重建質量。爲了得到高質量的採集圖像,常常須要進行圖像降噪、圖像超分辨率重建、圖像去僞影等復原與重建工做。下面將分別闡述深度學習在這幾方面的研究現狀。
2.1.1 醫學圖像降噪
基於深度學習的醫學圖像降噪主要應用在低劑量CT圖像中。卷積降噪自動編碼器(convolutional neural networkdenoise auto-encoder,CNN-DAE)是早期用於醫學圖像降噪的深度學習模型。該模型經過一些堆疊的卷積層,以編碼和解碼的方式從噪聲圖像中學習無噪圖像,其魯棒性較差,對噪聲類型變化較爲敏感。隨後,Chen H等人提出RED-CNN降噪模型,將殘差網絡與卷積自動編碼器相結合,經過跳躍鏈接造成深度網絡,實現低劑量CT圖像的降噪。同年,Kang E等人首先對低劑量CT圖像進行方向小波變換,而後將深度卷積神經網絡模型應用於小波係數圖像,實現降噪,並使用殘差學習架構加快網絡訓練速度,提升性能。
雖然這些網絡結構的降噪性能相較於傳統方法獲得了顯著的提高,可是其網絡訓練均以復原CT圖像與相應正常劑量CT圖像之間的均方偏差最小爲優化目標,使得降噪圖像存在細節模糊和紋理缺失等問題。爲了解決這一問題,研究者提出改進損失函數和模型結構的方法來優化低劑量CT圖像的降噪效果。WGAN-VGG模型經過引入感知損失,採用WGAN(Wasserstein generative adversarial network)模型進行降噪,利用Wasserstein距離和感知損失提升降噪圖像與真實圖像的類似性。基於WGAN-GP(gradient penalty)的SMGAN (structurally-sensitive multi-scale generative adversarial net)模型將多尺度結構損失和L1範數損失結合到目標函數中,並利用相鄰切片之間的信息降噪,其結果優於WGAN-VGG模型。可是梯度懲罰的使用削弱了生成式對抗網絡(generative adversarial network,GAN)的表示能力。爲了解決這個問題,Ma Y J等人提出基於最小二乘生成對抗網絡(least-square GAN,LS-GAN)的殘差生成器結構,經過引入結構類似度和L1範數損失來提升降噪能力,生成器負責學習噪聲,降噪圖像爲生成器的網絡輸入與網絡輸出的相減結果。除了生成模型,爲了提升降噪效果,Yin X R等人同時在投影域和圖像域採用3D殘差網絡進行降噪,並利用濾波反投影重建算法,實現投影域和圖像域的相互轉化,經過迭代的思想實現圖像降噪。Wu D F等人提出一致性神經網絡模型,實現了無監督的圖像降噪方法,其不須要無噪圖像標籤,僅利用有噪圖像對模型進行訓練,從而得到降噪圖像。
能夠看出,在利用深度學習進行降噪時,常須要利用有噪圖像和無噪圖像來訓練模型,學習噪聲類型,或者學習無噪圖像與有噪圖像之間的對應關係,進而實現圖像降噪。這種方式具備必定的侷限性,在臨牀的某些應用上,很難得到真實的無噪圖像。所以,如何採用無監督或者自監督模型,僅利用有噪圖像實現醫學圖像降噪將是將來研究的主要方向。
2.1.2 醫學圖像超分辨率重建
高分辨率的醫學圖像能夠提供更多的臨牀診斷細節,然而因爲採集設備的限制,臨牀上高分辨率圖像較難獲取。所以,如何利用深度學習技術從一幅或者多幅低分辨率醫學圖像中得到高分辨率圖像成爲當前主要研究熱點之一。隨着深度學習模型在天然圖像超分辨率重建中的成功應用,採用深度學習模型進行醫學圖像超分辨率重建的研究逐漸開展起來。然而,醫學圖像與天然圖像有本質的區別,其超分辨率重建不只須要在圖像切片平面上進行,還須要在切片之間進行,如圖2所示。
圖2 醫學圖像超分辨率圖像示意圖(此圖部分來自參考[9] )
除了將天然圖像中的超分辨率重建模型直接應用到醫學圖像,Oktay O等人採用深度殘差卷積網絡從多個2D心臟磁共振(magnetic resonance,MR)圖像中重建出3D高分辨率MR圖像,提升了層間分辨率。Pham C H等人將SRCNN模型拓展到3D,以實現腦部MR圖像的超分辨率重建。McDonagh S等人提出對上下文敏感的殘差網絡結構,能夠獲得邊界和紋理清晰的高分辨率MR圖像。Zheng Y等人提出多個Dense模塊和多路分支組合的MR高分辨重建模型,該模型具備較好的重建結果和泛化能力。Zhao X L等人提出通道可分離的腦部MR圖像高分辨率重建模型,一個通道採用殘差結構,一個通道採用密集鏈接結構,實現了特徵的有效利用,從而提升高分辨率圖像的重建質量。Tanno R等人結合3DSubpixelCNN和變分推論實現了磁共振擴散張量圖像的超分辨率重建。Peng C等人提出空間感知插值網絡(spatially aware interpolation network,SAINT),充分利用不一樣切面的空間信息提升超分辨率圖像的重建質量,該模型在對CT圖像進行2倍、4倍和6倍分辨率重建時,均取得了較好的結果。Shi J等人提出一種多尺度全局和局部相結合的殘網絡(multi-scale global local residual learning,MGLRL)模型,實現了MR圖像的超分辨重建,該模型能夠加強圖像重建細節。Lyu Q等人採用GAN實現了多對比度MR圖像的超分辨率重建。
與醫學圖像降噪類似,基於深度學習的超分辨率圖像重建須要低分辨率圖像樣本和高分辨率圖像樣本對對網絡進行訓練。一般採用下采樣的方式進行高/低分辨率圖像樣本對的構造。然而針對不一樣模態的醫學成像,其成像原理大不相同,高分辨率和低分辨率之間的對應關係也不盡相同。所以,採用人工下采樣的方式得到訓練數據,學習低分辨率圖像與高分辨率圖像的對應關係,極可能與實際採集中低分辨率圖像與高分辨率圖像的對應關係不相符,進而致使重建的高分辨圖像無心義,所以如何構建符合實際的高/低分辨率圖像樣本對是利用深度學習進行超分辨重建的難點。
2.1.3 醫學圖像重建
醫學圖像重建是指將採集的原始數據重建爲臨牀上可視圖像的過程,如CT採集的原始數據爲投影圖像,MR採集的原始數據爲K空間數據,須要重建算法才能得到臨牀上用於診斷的圖像。在實際應用中,因爲一些採集條件的限制(如在CT中儘可能減小投影數目,縮短採集時間,以下降輻射影響;在MR成像中,減小K空間填充數目,縮短採集時間,以免患者的不適或者由患者運動帶來的圖像僞影),須要下降原始數據的採集率。然而,下降原始數據的採集率必然會影響圖像的重建質量。所以,研究合適的重建算法,保證在原始數據低採樣率下仍能得到高質量的重建圖像,成爲醫學圖像重建中的研究重點。
目前採用深度學習模型進行醫學圖像重建的方法主要分爲兩類:一類是從原始數據直接到圖像的重建,另外一類是基於後處理的方式提升重建圖像的質量。第一類方法的表明模型有:ADMM-Net,其用深度迭代的方式學習傳統交替方向乘子(alternating direction method of multipliers,ADMM)優化算法中的超參數,能夠直接從欠採樣的K空間數據中重構出MR圖像;Adler J等人提出對偶學習模型,用其代替CT重建中的濾波反投影方法,實現了投影數據到CT圖像的準確重建;Cheng J等人在此基礎上提出原始-對偶網絡(primal-dual network, PD-Net),實現了MR圖像的快速重建;Zhang H M等人提出JSR-Net(joint spatial-Radon domain reconstruction net),利用深度卷積神經網絡模型,同時重建CT圖像及其對應的Radon投影變換圖像,獲得了比PD-Net更好的重建結果。第二類方法是目前主要的重建方式,即採用圖像去僞影的後處理模型進行重建。用於圖像降噪、超分辨重建的模型均可以用於該類型的圖像重建,如Lee D等人提出帶有殘差模塊的U-Net模型結構來學習重建圖像與原始欠採樣圖像之間的僞影;隨後,他們又提出利用雙路U-Net模型對相位圖像和幅度圖像進行重建,進而提升了MR圖像的重建質量;Schlemper J等人採用深度級聯的卷積神經網絡(convolutional neural network,CNN)模型,學習動態MR圖像採集的時序關係,進而在快速採集下提升動態MR圖像的重建質量;Han Y等人採用域適應微調方法,將CT圖像重建的網絡應用到MR圖像重建上,能夠實現高採樣率下的準確重建;Eo T等人提出KIKI-Net,同時在K空間和圖像空間域上使用深度學習網絡進行重建,提升了MR圖像重建的性能;Bao L J等人採用一個加強遞歸殘差網絡,結合殘差塊和密集塊的鏈接,用複數圖像進行訓練,獲得了較好的MR圖像重建結果;Dai Y X等人基於多尺度空洞卷積設計深度殘差卷積網絡,以較少的網絡參數提升了MR圖像的重建精度;受到GAN在視覺領域成功應用的啓發,Yang G等人提出一種深度去混疊生成對抗網絡(DAGAN),以消除MRI重建過程當中的混疊僞影;Quan T M等人提出一種具備週期性損失的RefinGAN模型,以極低的採樣率提升了MR圖像的重建精度;Mardani M等人基於LS-GAN損失,採用ResNet的生成器和鑑別器來重建MR圖像,得到了較好的可視化結果。
圖像降噪、圖像超分辨率重建、圖像重建等均屬於反問題求解。所以,其模型可互相通用,本文不對其進行一一闡述。
2.2 醫學圖像合成
2.2.1 醫學圖像數據擴展
目前,臨牀上醫學圖像合成主要有兩個目的。其一,擴展數據集,以得到大量醫學影像樣原本訓練深度學習模型,從而提升臨牀診斷和預測的準確度。儘管已有不少數據擴展方法,如平移、旋轉、剪切、加噪聲等,可是其數據擴展方式沒法知足數據多樣性的需求,在提高深度學習模型的預測精度以及泛化能力上仍有待提升。其二,模擬成像。因爲不一樣模態的醫學圖像能夠提供不一樣的信息,融合不一樣模態的醫學影像信息能夠提升臨牀診斷精度。然而同一個病人的多模態影像信息很難獲取,此時圖像合成便提供了一種有效的手段。此外,某些新興的成像技術對成像設備具備較高的要求,僅少數的醫院及科研機構能夠知足要求,所以圖像合成爲獲取稀缺的影像數據提供了可能。
隨着GAN模型在天然圖像合成上的成功應用,應用GAN的衍生模型進行醫學圖像合成已成爲近幾年的研究熱點。在醫學圖像數據集擴展方面,主要採用無條件的GAN模型進行合成,即主要從噪聲數據中生成醫學圖像。經常使用的方法是以深度卷積生成對抗網絡(deep convolutional GAN,DCGAN)爲基線模型進行改進。如Kitchen A等人基於DCGAN模型成功地合成了前列腺的病竈圖像;Schlegl T等人基於DCGAN提出一種AnoGAN模型,用來生成多樣的視網膜圖像,以輔助視網膜疾病的檢測;Chuquicusma M J M等人採用DCGAN模型生成肺結節數據,其結果可達到臨牀放射科醫生沒法辨別的程度;Frid-Adar M等人使用DCGAN生成了3類肝損傷(即囊腫、轉移酶、血管瘤)的合成樣本,以提升肝病分類的準確性;Bermudez C等人採用DCGAN的原有訓練策略,生成了高質量的人腦T1加權MR圖像。
儘管DCGAN在醫學圖像合成上取得了衆多有價值的成果,但其僅能合成分辨率較低的圖像。爲了提升醫學圖像合成的質量,一些改進的GAN模型被提出,如Baur C等人採用LAPGAN,基於拉普拉斯金字塔的思想,利用尺度逐漸變化來生成高分辨率的皮膚病變圖像,該方法生成的圖像能夠有效地提升皮膚疾病分類的準確性。此外,基於漸進生長生成對抗網絡(progressive grow GAN,PGGAN)在高分辨率圖像合成方面的優點,Korkinof D等人利用PGGAN合成了分辨率爲1 280×1 024的乳腺鉬靶X光圖像。
2.2.2 醫學圖像模態轉換
醫學圖像的模態轉換合成能夠分紅兩類。一類是單模態的轉換,如低劑量CT到普通計量CT圖像的轉換提出上下文感知生成模型,經過級聯3D全卷積網絡,利用重建損失、對抗損失、梯度損失,採用配對圖像進行訓練,實現了MR圖像到CT圖像的合成,提升了合成CT圖像的真實性。除了級聯模型,在多模態圖像轉換任務中,常採用的深度模型網絡架構爲編碼-解碼結構,典型表明爲Pix2Pix以及CycleGAN模型。如Maspero M等人採用Pix2Pix的網絡結構,實現了MR圖像到CT圖像的轉換,進而實現放化療過程當中輻射劑量的計算;Choi H等人基於Pix2Pix模型,從PET圖像生成告終構信息更加清晰的腦部MR圖像。儘管Pix2Pix模型能夠較好地實現多模態圖像的轉換,可是其要求源圖像與目標圖像必須空間位置對齊。這種訓練數據在臨牀上是很難獲取的。針對源圖像和目標圖像不匹配的問題,一般採用CycleGAN模型進行圖像生成。Wolterink J M等人使用不配對數據,利用CycleGAN從頭部MRI圖像合成了其對應的CT圖像,合成圖像更真實。目前,CycleGAN已成爲多模態醫學圖像轉換中普遍採用的手段,如心臟MR圖像到CT圖像的合成、腹部MR圖像到CT圖像的合成、腦部C T圖像到M R圖像的合成等。然而CycleGAN有時沒法保留圖像的結構邊界。Hiasa Y等人引入梯度一致性損失,對CycleGAN模型進行了改進,該損失經過評估原始圖像與合成圖像之間每一個像素梯度的一致性來保留合成圖像的結構邊界,進而提升了合成圖像的質量。
3 醫學圖像配準與分割
在不少醫學圖像分析任務中,得到高質量的圖像數據後,常常須要對圖像進行配準,並對感興趣區域進行分割,以後才能進行圖像分析和識別。本節分別對深度學習在醫學圖像配准以及分割領域的應用進行詳細的闡述。
3.1 醫學圖像配準
圖像配準是對不一樣時刻、不一樣機器採集的圖像進行空間位置匹配的過程,是醫學圖像處理領域很是重要的預處理步驟之一,在多模態圖像融合分析、圖譜創建、手術指導、腫瘤區域生長檢測以及治療療效評價中有普遍的應用。目前,深度學習在醫學圖像配準領域的研究能夠分紅3類,第一類是採用深度迭代的方法進行配準,第二類是採用有監督的深度學習模型進行配準,第三類是基於無監督模型的深度學習配準。第一類方法主要採用深度學習模型學習類似性度量,而後利用傳統優化方法學習配準的形變。該類方法配準速度慢,沒有充分發揮深度學習的優點,所以近幾年鮮見報道。本文主要集中介紹有監督學習和無監督學習的醫學圖像配準。
基於有監督學習的配準在進行網絡訓練時,須要提供與配準對相對應的真實變形場,其配準框架如圖3所示。
網絡模型的訓練目標是縮小真實變形場與網絡輸出變形場的差距,最後將變形場應用到待配準的圖像上,從而獲得配準結果。在有監督學習的醫學圖像配準中,變形場的標籤能夠經過如下兩種方式得到:一種是將經典配准算法得到的變形場做爲標籤;另外一種是對目標圖像進行模擬形變,將形變參數做爲真實標籤,將形變圖像做爲待配準圖像。
在基於有監督學習的剛性配準方面,Miao S等人首先結合CNN,採用迴歸的思想將3D X射線衰減映射圖與術中實時的2D X射線圖進行剛體配準;Salehi S S M等人結合深度殘差迴歸網絡和修正網絡,採用「先粗配準,再細配準」的策略,基於測地線距離損失實現了3D胎兒大腦T1和T2加權磁共振圖像的剛體配準,創建了胎兒大腦圖譜;隨後,Zheng J N等人採用域自適應的思想,利用預訓練網絡實現了2D和3D射線圖像配準,其設計了成對域適應模塊,用來調整模擬訓練數據與真實測試數據之間的差別,以提升配準的魯棒性。
在非線性配準方面,模擬非線性變形場比模擬剛性變形場困難不少,所以在基於有監督學習的非線性配準中,大多采用經典方法得到變形場,並以其爲標籤,對模型進行訓練。Yang X等人首先以U-Net網絡模型爲基線結構,利用微分同胚算法得到變形場,並將其做爲標籤,實現2D和3D腦部MR圖像的端到端配準。由於非線性變形場較難模擬,因此在監督學習中引入弱監督配準和雙監督配準的概念。弱監督配準指利用解剖結構標籤作配準的標記,學習變形場。Hu Y P等人使用前列腺超聲圖像和MR圖像的結構標記訓練CNN模型,學習變形場,而後將變形場施加在灰度圖像上,從而實現MR圖像和超聲圖像的配準。Hering A等人採用類似度測量和組織結構分割標籤,同時訓練配準網絡,提升了心臟MR圖像的配準精度。雙監督配準是指模型採用兩種監督形式的損失函數進行訓練,如Cao X H等人在進行MR圖像和CT圖像配準時,先利用生成網絡將MR圖像轉換爲其對應的CT圖像,將CT圖像轉換爲其對應的MR圖像,在配準的過程當中,同時計算原始MR圖像與生成MR圖像之間的類似性損失以及原始CT圖像與生成CT圖像之間的類似性損失,經過兩種損失的優化,提升配準的精度;Fan J F等人結合有監督模型損失和無監督模型損失,實現了腦部MR圖像的準確配準。有監督學習的醫學圖像配準的精度取決於標籤的可靠性,所以,如何生成可靠的標籤並設計合適的損失函數,是有監督學習的醫學圖像配準中待解決的難點。
圖3 有監督深度學習醫學圖像配準框架
隨着空間變換網絡(spatial transformer network,STN)的問世,利用無監督深度學習模型進行醫學圖像配準成爲研究熱點。其配準網絡框架如圖4所示。
Yo o I等人結合卷積自動編碼器(convolutional auto-encoder,CAE)和STN模型,實現了神經組織顯微鏡圖像的配準,其中CAE負責提取待配準圖像與目標圖像的特徵,基於該特徵計算類似性損失,結果代表,該種損失能取得較好的配準結果。2018年,Balakrishnan G等人提出VoxelMorph網絡結構,以U-Net爲基線模型,結合STN模塊,實現了MR圖像的非線性配準;隨後,其對模型進行了改進,引入分割標記輔助損失,進一步提升了配準的Dice分數。Kuang D等人提出空間變換模塊,用於替代U-Net網絡結構,在下降模型參數的前提下,實現了腦部MR圖像的準確配準。Zhang J爲了進一步提升無監督配準的準確度,除了類似度損失,還引入了變換平滑損失、反向一致性損失以及防摺疊損失。其中,變化平滑損失和防摺疊損失是爲了保證變形場的平滑性。反向一致性損失在互換待配準圖像與目標圖像時,可保證變形場知足可逆關係。Tang K等人利用無監督網絡實現了腦部MR圖像的端到端配準,即網絡模型同時學習了仿射變換參數和非線性變換參數。
除了基於CNN模型的無監督配準,採用GAN模型進行配準也已成爲一種研究趨勢,即採用條件生成對抗網絡進行醫學圖像配準。其中,生成器用來生成變換參數或者配準後的圖像,判別器用於對配準圖像進行鑑別。一般在生成器與判別器之間插入STN模塊,以進行端到端訓練。目前,基於GAN模型的醫學圖像配準有較多的應用,如前列腺MR圖像與超聲圖像配準,以CycleGAN爲基線模型的多模態視網膜圖像、單模態MR圖像配準,CT圖像和MR圖像配準等。在基於GAN的醫學圖像配準中,GAN模型或者起到正則化的做用,用來調節變形場及配準圖像,或者用來進行圖像轉換,利用交叉域配準提升配準的性能。表1總結了典型的無監督配準模型和有監督配準模型。
圖4 無監督深度學習圖像配準網絡框架
3.2 醫學圖像分割
醫學圖像分割是計算機輔助診斷的關鍵步驟,是進行感興趣區域定量分析的前提。隨着深度學習在語義分割中的快速發展,將天然圖像分割模型擴展到醫學圖像已成爲主要趨勢。在醫學圖像分割中,採用的主流網絡框架有CNN、全卷積網絡(full convolutional network,FCN)、U-Net、循環神經網絡(recurrent neural network,RNN)和GAN模型。目前經常使用的醫學圖像分割模型包括2.5D CNN,即分別在橫斷面、失狀面、冠狀面上使用2D卷積進行分割,在節約計算成本的前提下,充分利用三維空間的鄰域信息提升分割的準確度。FCN是深度學習語義分割的初始模型,經過全卷積神經網絡和上採樣操做,能夠粗略地得到語義分割結果。爲了提升分割細節,採用跳躍鏈接將低層的空間信息和高層的語義信息相結合,以提升圖像分割的細膩度。FCN及其變體(如並行FCN、焦點FCN、多分支FCN、循環FCN等)已被普遍應用到各類醫學圖像分割任務中,且表現良好。
U-Net是由一系列卷積和反捲積組成的編碼和解碼結構,經過跳躍鏈接實現高級語義特徵和低級空間信息的融合,進而保證分割的準確度。U-Net及其變體(如Nested U-Net、V-Net、循環殘差U-Net)在醫學圖像分割上取得了較好的分割結果,是目前醫學圖像分割的主流基線模型。
RNN類分割模型主要考慮醫學圖像分割中切片和切片之間的上下文聯繫,進而將切片做爲序列信息輸入RNN及其變體中,從而實現準確分割。典型的模型有CW-RNN(clockwork RNN)和上下文LSTM模型,其經過抓取相鄰切片的相互關係,銳化分割邊緣。在此基礎上, Chen J X等人提出雙向上下文LSTM模型——BDC-LSTM,即在橫斷面雙向、矢狀面雙向和冠狀面雙向上學習上下文關係,其結果比採用多尺度分割的金字塔LSTM模型要好。
基於GAN的分割的主要思想是生成器被用來生成初始分割結果,判別器被用來細化分割結果。通常在分割網絡中,生成器常採用FCN或者U-Net網絡框架,判別器爲常見的分類網絡結構,如ResNet、VGG等。基於GAN的醫學圖像分割已經被應用到多個器官和組織的醫學圖像分割任務中。表2爲常見醫學圖像分割模型所用的數據集以及其分割性能對比。
4 醫學圖像分類及識別
4.1 醫學圖像分類
醫學圖像分類和識別是計算機輔助診斷(computer-aided diagnosis,CAD)的最終目標。在深度學習出現前,常採用人工定義的圖像特徵(如圖像的紋理、形狀、圖像的灰度直方圖等),通過特徵選擇後,再基於機器學習模型(如支持向量機、邏輯迴歸、隨機森林等)進行分類。典型表明爲影像組學方法,其在腫瘤的分型分期、治療的預後預測方面取得了不少重要的成果。然而,人工定義特徵以及特徵選擇方式很大程度上影響了分類的可靠性和魯棒性。
近年來,深度學習模型的飛速發展,尤爲是CNN的普遍應用,使得利用神經網絡模型自動提取和選擇特徵並進行分類成爲主流趨勢。CNN模型的不一樣變體已經在基於醫學影像的臨牀疾病診斷中獲得了普遍的應用,例如基於Kaggle公司的眼底圖像公開數據集,Shanthi T等人使用改進的AlexNet進行糖尿病視網膜病變的分類,其精度能夠達到96.6%左右;基於VG G,利用胸片進行肺結節的良惡性分類,其精度可高達99%。目前,在常見的CNN變體中,ResNet和VGG在醫學影像分類中的表現最好,所以大多數的腫瘤檢測、腦神經系統疾病分類、心血管疾病檢測等將這兩種模型做爲基線模型進行研究。
與天然圖像數據相比,醫學圖像數據中知足模型訓練需求的數據較少。所以,爲了提升臨牀影像智能診斷的準確性,經過知識遷移來訓練醫學圖像分類模型已成爲主流。常見的知識遷移包含天然圖像到醫學圖像的遷移、基於臨牀知識的指導遷移。在天然圖像到醫學圖像的遷移中,主要有兩種方式:一種是固定利用天然圖像訓練的網絡模型的卷積層參數,利用該參數提取醫學影像特徵,而後利用該特徵結合傳統的機器學習方法進行分類;另外一種是將天然圖像訓練的網絡模型參數做爲醫學圖像訓練模型的初始化參數,經過微調來實現醫學圖像分類。除了天然圖像到醫學圖像的遷移,還能夠利用其餘醫學圖像數據集,採用多任務學習的方式進行數據信息共享,彌補數據不足帶來的分類缺陷。
基於臨牀知識的指導遷移將臨牀醫生診斷的經驗(如醫生的經驗學習方式、影像診斷方式以及診斷關注的圖像區域和特徵等)融入模型,根據臨牀醫生診斷的經驗,即先掌握簡單的疾病影像診斷,再進行復雜疾病診斷,研究者們提出了「課程學習」模型,將圖像分類任務從易到難進行劃分,模型訓練先學習簡單的圖像分類任務,再學習較難的分類任務。基於該方式的學習能夠提升分類的準確度。基於醫生診斷的方式(如迅速瀏覽所有醫學圖像,再選擇某些切片進行診斷),研究者提出基於全局和局部的分類模型,其在胸片和皮膚疾病的診斷上取得了較好的效果。基於診斷時關注的影像區域,帶有注意力機制的分類模型被提出,典型的表明有AGCNN(attention-based CNN for glaucoma detection)、LACNN(lesion aware CNN)和ABN(attention branch network),經過引入注意力,網絡能夠關注某些區域,從而提升分類的精度。此外,根據醫生診斷用到的經驗特徵,如腫瘤的形狀、大小、邊界等信息,將人工定義的特徵與深度模型提取的特徵進行融合,提升醫學圖像的分類精度,也是一種趨勢。如Majtner T等人將人工特徵分類結果與深度學習分類結果進行融合,提升了皮膚癌分類的準確度;Chai Y D等人將人工特徵和深度學習特徵進行融合並訓練分類器,從而實現青光眼圖像的分類;Xie Y T等人將人工提取的特徵圖像塊與深度學習圖像塊同時做爲ResNet模型的輸入,實現肺結節的準確分類。如何將深度學習特徵與傳統人工特徵進行有效的融合,是該類模型設計的難點。
4.2 醫學圖像目標識別
醫學圖像目標識別也屬於臨牀診斷的一種,即在一幅圖像中標記出可能病變的區域,並對其進行分類,如圖5所示。
圖5 醫學圖像目標識別示意圖
傳統的人工標記識別費時費力。最初將深度學習模型應用於目標識別時,主要是將圖像分紅小塊,逐塊輸入由CNN等組成的二分類模型中,判斷其是否屬於目標區域。隨着深度學習模型在目標檢測領域的快速發展,尤爲是Fast R-CNN模型和Mask R-CNN模型的出現,將整幅醫學圖像輸入模型,便可一次找到全部可能的目標區域。可是在這兩類模型中均存在一個區域建議模塊和一個分類模塊,兩者須要進行迭代更新,模型的速度並不能知足臨牀的實時性要求。YOLO(you only look once)和SSD(single shot multibox detector)模型的問世解決了目標檢測的實時性問題。基於此類模型,Lin T Y等人提出RetinaNet模型,並將其擴展應用到病理圖像和鉬靶圖像乳腺腫瘤識別、CT圖像的肺結節檢測中。上述模型均針對2D圖像進行目標檢測,忽略了3D圖像中切片和切片之間的空間信息。爲了提升識別的準確度,基於RNN和LSTM的識別模型被應用到醫學圖像中。
此外,在醫學圖像目標識別中,一樣存在數據不充足的問題。爲了解決這個問題,基於遷移學習的醫學圖像識別逐漸開展起來,如基於ImageNet數據進行模型遷移,實現肺結節、乳腺癌和結直腸息肉的檢測。同時,基於臨牀經驗知識指導的遷移學習也被應用到醫學圖像的目標檢測中。典型表明有AGCL模型,其基於注意力的課程學習,實現胸片中的腫瘤檢測;CASED (curriculum adaptive sampling for extreme data imbalance)模型,其可檢測CT圖像中的肺結節;特徵金字塔模型(feature pyramid network,FPN),其採用不一樣對比度的圖像,利用多尺度注意力模型實現腫瘤檢測。
圖像分類和圖像目標識別是醫學影像臨牀診斷的最終目標,是目前人工智能技術與臨牀緊密結合的研究方向。筆者僅對分類識別的幾種狀況進行了闡述,以便掌握其發展方向。表3給出了腫瘤分類中經常使用的醫學圖像數據集以及深度學習模型,並對比了其分類性能。
5 結束語
本文從醫學圖像數據產生、醫學圖像預處理,以及醫學圖像識別和分類等方面,闡述了深度學習模型在醫學圖像分析領域的應用現狀。儘管深度學習模型(如CNN、LSTM、GAN、注意力機制、圖模型、遷移學習等)在醫學圖像分析中已取得衆多突破,然而將深度學習應用於臨牀,輔助臨牀進行精準診斷和個性化治療仍受到如下幾方面的限制。
首先,現有的深度學習模型對影像數目和質量有較高的要求,而臨牀上帶有標記的醫學影像數據難以獲取,且目前臨牀診斷預測常使用的方法是有監督學習,數據的不充足勢必會影響預測的準確性和穩定性。所以,如何在只有少許有標籤數據的狀況下,採用弱監督、遷移學習以及多任務學習的思想,提升分類預測的準確度,將是持續的研究熱點。
其次,臨牀應用對可解釋性要求較高,而目前深度學習模型所學習的特徵沒法進行有效的解釋。儘管現階段已有研究學者提出採用可視化以及一些參數分析來對模型和結果進行解釋,可是與臨牀需求中要求的造成可解釋的影像學標記還有必定的距離。所以,研究深度學習模型的可解釋方法將是醫學圖像領域的研究熱點。
最後,如何提升模型預測的魯棒性是待解決的難點。現有深度學習模型多數僅針對單一數據集效果較好,沒法在不訓練的狀況下,較好地預測其餘數據集。而醫學影像因爲採集參數、採集設備、採集時間等因素的不一樣,相同疾病的圖像表現可能大不相同,這致使現有模型的魯棒性和泛化性較差。如何結合腦認知思想改進模型結構以及訓練方式,提升深度學習模型的泛化能力,也是醫學圖像應用領域中待研究的關鍵問題。
做者簡介
王麗會(1982-),女,博士,貴州大學計算機科學與技術學院、貴州省智能醫學影像分析與精準診斷重點實驗室副教授,主要研究方向爲醫學成像、機器學習與深度學習、醫學圖像處理、計算機視覺 。
秦永彬(1980-),男,博士,貴州大學計算機科學與技術學院、貴州省智能醫學影像分析與精準診斷重點實驗室教授,主要研究方向爲大數據治理與應用、文本計算與認知智能。