江鋮:乳腺癌識別By AI

歡迎你們前往騰訊雲+社區,獲取更多騰訊海量技術實踐乾貨哦~前端

本文由 雲加社區技術沙龍 發表於 雲+社區專欄

演講嘉賓:江鋮,騰訊覓影高級研究員。多年以來一直從事計算機視覺相關的研究。加入騰訊之後,負責騰訊覓影乳腺癌AI方向的研發,參與研發的項目在多家大型三甲醫院落地。數據庫

img

你們好,今天很高興能給你們帶來這方面的報告。正如你們所看到的,社會平均年齡在逐年增加,你們對健康的意識也是愈來愈高,與此同時伴隨着AI技術的發展,AI醫療方向就成爲了互聯網領域的一大研究熱點,騰訊在這方面也是作了很大的努力,在這週四廣州舉辦的互聯網+會議上咱們正式對外發布了咱們的AI乳腺系統。做爲該系統的研發人員之一我有幸見證了這個項目從無到有以及一次一次迭代的過程,因此但願在今天的會場上可以跟你們分享一下咱們整個團隊的經驗。安全

img

選擇乳腺癌這個研究方向做爲咱們工做的開始主要是有兩方面的緣由。第一方面是對於女性來講乳腺癌是全部腫瘤當中發病率最高的一種,它的發病率大概在16%-17%之間,嚴重危害女性的健康。第二點是由於乳腺癌它雖然發病率很高,可是它的治癒率是比較高的,若是能在較早期發現的話它的治癒可能性是很是高的。對於美國來講目前五年的生存率是在89%,而中國在這方面只有83%。緣由主要是中國人口基數過多,相對來講有經驗的看片醫生較爲缺少,這就產生一個供需的矛盾。目前應用AI技術就是爲了緩解這個矛盾,可以最大限度地幫助到患者跟醫生。微信

img

對於乳腺的診斷先來作一些基礎知識的瞭解。對乳腺來講診斷方式一般有如下五種,前四種是大部分醫院採用的方式,首先對於一個來體檢或者是以爲有異常的人,一般會對他先進行一個X光拍照,拍照以後對他進行一個診斷。影像科的醫生讀片以後做出判斷,若是發現有不能肯定的地方他們會建議進一步作超聲和磁共振。若是這兩個作下來依然有可疑的狀況,可能就會建議作病理。病理能確認一個患者是否真的患有乳腺癌。在做出定性判斷以後若是真的有,再斷定惡性的程度是多高,給出一個打分。網絡

而後在這個基礎上還會對惡性腫瘤的亞型進行分類,對不一樣的亞型能夠採用不一樣的治療方案。近些年基因方面的研究也是比較熱的,衆所周知若是家族當中有人患有乳腺癌的話,其家族成員患上乳腺癌的機率相對其餘人來講就會高一些,目前已經有研究證實有一種叫作BRCA的基因,攜帶這樣基因的女性患乳腺癌的機率要遠遠高於日常人。因此經過這個基因能夠幫助咱們肯定高發人羣,而且可以有助於咱們制訂個性化的治療方案。框架

從上面能夠看到對乳腺癌的診斷是有很是多的模態的,咱們的終極目標是可以把這些模態有機地結合起來,造成一個完整的總體,提升對乳腺癌的診療技術。咱們最先開始的研究方向是鉬靶,由於鉬靶它是使用最爲普遍,而且最爲有效的一種方式。,咱們如今對於鉬靶的研究成果已經落地了三十多家三甲醫院,而且已經初步獲得了一些應用,也得到了一些反饋。在病理和磁共振方面咱們也取得了階段性的成果,而在超聲方向咱們目前是剛剛開始。學習

img

下面就以咱們作得相對完整的一個鉬靶項目來開始今天的技術分享。這個乳腺鉬靶主要實現了三方面的功能,第一方面實現了疑似病竈的定位,可以在給定的鉬靶圖上將兩大潛在的惡性竈準確的標定出來。這樣能夠輔助醫生從而減輕醫生讀片的壓力,另外一方面能夠下降醫生的漏診率。第二是判斷病竈惡性的機率,並在此基礎上對整個單側乳房都作出進一步的斷定。最後就是前面提到的這些分析的基礎上結合一些圖像處理的方式提取乳腺的特徵,並生成它的影像報告。ui

img

咱們來看一下這三方面的功能是怎麼實現的呢?咱們主要採用了下面這樣一種技術框架,這個框架主要包含三層內容,在這個框架的前端主要是提供了對於鉬靶影像的前處理層。中間的核心模塊是咱們的AI學習模型,第三層在是這兩個模型的基礎上經過醫生的反饋,對前兩層進行動態更新。下面我將每個部分跟你們具體的講一講。spa

img

首先在前處理模塊,目前主要經過歸一化、遷移學習方面的方法來實現對於不一樣X光廠商設備適配的這個過程。在進行了設備適配後,咱們會對其進ROI提取。在前端處理以後就到了核心部分:學習模型因爲乳腺鉬靶的特殊性,咱們沒有辦法直接用目前市面上已經有的神經網絡來解決這個問題。因而咱們就單獨設計了這個模型。它有四大優勢,第一個優勢就是相對於傳統的網絡的單圖輸入,TMuNet模型採起了四圖( MLO-CC位)輸入,左乳有兩張,右乳有兩張,由於X光拍攝的角度有CC位和MLO位兩種方式。CC位是水平方式的拍攝,MLO的話是一個側斜位的拍攝方式。經過左右乳進行對比,能夠極大提高診斷的精準度。儘量地解決同影異病和同病異影的問題。設計

img

第二點咱們採用了一種多尺度網絡,一般在天然圖像處理中圖片在輸入網絡以前,會對其進行縮放,縮放以後再輸入固定的網絡。因爲醫學影像中的病竈對於同一個形態不一樣的尺寸,可能意味着良惡性的不一樣,若是單純的作縮放有可能作出不一致的判斷,因此採起了經過網絡結構的設計來適配圖片的方式。

img

第三點就是漸進式的網絡構建,這種方式有點類似於咱們大腦進行學習的過程,對於一個複雜的問題,它不是一次性解決的,它是把問題分解成若干個相對簡單的問題而後一層一層去解答。

這個網絡也是基於這樣的思想,首先咱們會使用一個淺層網絡對局部的病竈,好比說腫塊、鈣化進行病竈的分類。在此基礎上逐步加深網絡層次,實現對單幅圖片的一個診斷,而後咱們再進一步的對網絡進行加深,從而實現四張圖片診斷的功能。因此說咱們的訓練是一層一層的,咱們的網絡也是逐漸加深的過程。

第四點是自步學習的訓練方式。人腦它在學習新的知識的時候一般是由易到難的,因此在樣本訓練的過程當中,並非一次性把全部的樣本都投入網絡進行訓練。咱們將這些樣本按從易到難順序分紅了多個類別,而後咱們在訓練的過程中也按由易到難的順序逐步地把樣本加進去,對模型進行訓練。實驗代表經過這樣的過程,模型能夠達到一個最好的效果。

img

在採用前面四種這種方式獲得了這樣一個基礎模型以後,咱們還會根據醫生的反饋以及一些新接入醫院新的數據對咱們的模型進行遷移學習,並作動態更新。在工程實踐的過程中咱們總結髮現AI見過的疑難病例的數量和種類很大程度上決定了這個AI系統的上限。所以咱們很是注重咱們這個數據集的運營。咱們數據集會按期的從數據庫和線上數據當中挖掘有價值的疑難病例,對其進行標註。同時對於這其中的一部分咱們會請專家三甲醫院特別知名的專家讓他們來跟咱們進行討論,利用病理或者其餘數據進行交叉確認。將這些數據加入到咱們訓練樣本以後咱們的模型就能夠遠遠的超過那些沒有這些數據的網絡。

而後最終咱們的這個模型達到了下面的精度,腫塊探測方面能夠在0.2誤檢率的狀況下達到92%的敏感度。鈣化檢測精度更高,對於良惡性分類能夠達到87%的敏感度和96%的特異度。

除了這些內容以外咱們在病理和磁共振方向也開展了研究,目前已經取得了一些階段性的成果。在超聲方向咱們也是投入了人力的,目前咱們對超聲還處在數據的準備過程中。固然就像開始所提到的咱們的終極目標是把這幾種多模態的數據有機地結合起來,爲患者跟醫生提供咱們力所能及的幫助。這就是我今天的報告,謝謝你們!

Q&A

Q:我想問一下四張圖是怎麼放到網絡裏的?還有一個問題就是MLO位和CC位是否對同一個病竈作了匹配?

A:咱們是作了的。而後放進去的話主要是經過網絡的增廣來解決的,這方面裏面具體的細節的話如今還不太方便透露。

Q:還有一個問題就是鈣化點的標記和腫塊的標記是分開標記的仍是?

A:這個是須要分開的,由於他們的特徵是不同的。根據咱們的經驗來講對於鈣化分類的話,它是比腫塊更容易的。

問答

AI開發的語言要求?

相關閱讀

安全報告 | 2018上半年互聯網惡意爬蟲分析:從全景視角看爬蟲與反爬蟲

安全報告 | SSH 暴力破解趨勢:從雲平臺向物聯網設備遷移

給你的CVM安裝一個面板吧!

此文已由做者受權騰訊雲+社區發佈,原文連接:https://cloud.tencent.com/dev...

歡迎你們前往騰訊雲+社區或關注雲加社區微信公衆號(QcloudCommunity),第一時間獲取更多海量技術實踐乾貨哦~

海量技術實踐經驗,盡在雲加社區

相關文章
相關標籤/搜索