天然語言處理在醫學領域中的應用算法
1.總述數據庫
近年來醫療數據挖掘發展迅速,然而目前醫療數據結構化處於起步階段,更多的醫療數據仍然以天然語言文本形式出現。天然人的學習能力有限,所以學者們嘗試經過天然語言處理(Natural Language Processing,NLP)輔助完成彙總醫學領域知識的過程,將知識提煉出來,提取其中有用的診療信息,最終造成知識本體或者知識網絡,從而爲後續的各類文本挖掘任務提供標準和便利。網絡
2.具體應用數據結構
2.1 文本挖掘app
1)研究背景:生物醫學文本挖掘能夠幫助人們從爆炸式增加的生物醫學天然語言文本數據中抽取出特定的事實信息( 主要是生物實體如基因、蛋白質、藥物、疾病之間的關係) ,對整個生物知識網絡的創建、生物體關係的預測、新葯的研製等均具備重要的意義。dom
2)典型應用及應用方法機器學習
2.2.1命名實體識別electron
1)研究背景ide
生物命名實體識別,就是從生物醫學文本中識別出指定類型的名稱,好比基因、蛋白質、核糖核酸、脫氧核糖核酸、疾病、細胞、藥物的名稱等[1]。因爲生物醫學文獻的規模龐大,各類專有名詞不斷涌現,一個專有名詞每每有不少同義詞,並且廣泛存在大量的縮寫詞,人工識別費時費力,所以如何對命名實體進行識別就變得尤其重要。命名實體識別是文本挖掘系統中的一個重要的基礎步驟,命名實體識別的準確程度是其餘文本挖掘技術如信息提取或文本分類等的先決條件。
2)典型應用及應用方法工具
目前,使用比較多的生物命名實體識別的研究方法主要有如下幾種:基於啓發式規則的方法[2]、詞典匹配的方法[3]以及機器學習的方法,如支持向量機(SVM)[4]、最大熵[5]、條件隨機場 (CRF)[6]以及隱馬爾科夫(HMM)[7]等。
(1)基於啓發式規則的方法
Fukuda等人[2] 最先利用基於規則的系統斷定文檔中的蛋白質名稱;Tsuruoka等人[8]採用啓發式規則以最小化相關術語的歧義性和變化性,實現了術語名稱的標準化進而提升了查找字典的效率。
優勢:利用啓發式信息產生識別命名實體的規則能夠靈活地定義和擴展
缺點:規則對領域知識的依賴性很強,修改它們須要 該領域專家參與並花費大量時間。 另外,因爲命名實體類型多樣,且新類型的命名實體還在不斷涌現,這使得人們很難創建一套一致的規則。
目前,基於規則的方法通常被整合到基於機器學習的方法的後期處理過程當中[5]。
(2)基於字典的方法
最先採用的方法是基於字典的方法,1998年,Proux等人[9]第一次應用英語詞典來識別基因和蛋白質。
優勢:簡單且實用。
缺點:新的命名實體不斷出現,而且不少命名實體的長度較長甚至存在變體,難以創建一個完整的的生物醫學命名實體字典。
所以,基於字典的方法一般以字典特徵的形式被整合到基於機器學習的方法中[10]。
(3)基於機器學習的方法
基於機器學習的方法是目前主流的方法,它們利用統計方法從大量數據中估算相關參數和特徵進而創建識別模型。
優勢:客觀、移植性好。
缺點:須要大量的訓練數據且訓練過程至關耗時。
命名實體識別能夠看作是詞的分類問題,所以能夠採用基於分類的方法如貝葉斯模型和支持向量機[4]等;同時,它也能夠看作是序列分析問題(每一個詞語做爲序列中的一個詞被打上標籤),所以可採用條件隨機域[6]、隱馬爾可夫模型[7]等基於馬爾可夫的模型。基於機器學習的方法包括特徵選擇、分類方法和後期處理等幾個步驟。
2.2.2 關係抽取
1)研究背景
關係抽取( Relationship extraction,RE) 的目標是檢測一對特定類型的實體之間有無預先假設的關係[39]。生物醫學文本挖掘抽取的就是基因、蛋白質、藥物、疾病、治療之間的關係。
2)典型應用及應用方法
主要有基於模版的方式( 手動、自動) 、基於統計的方式和基於天然語言處理的方式。基於天然語言的方法就是把天然語言分解爲可從中提取出關係的結構[11]。Friedman[12]等人經過提出了GENIES系統,它從生物學文獻中提取和構建關於細胞途徑的信息。
2.2.3 文本分類
1)研究背景
文本分類( Text classification) 就是將文本自動歸 入預先定義好的主題類別中,是有監督的機器學習 方法,主 要應用於自動索引、文本過濾、詞義消歧 ( WSD) 和 Web 文檔分類等。
2)典型應用及應用方法
目前,文本分類的方法有不少,典型且效果較好 的有樸素貝葉斯分類法( Na Bayes) 、K 最近鄰( K - NN) 、支持向量機( SVM) 、決策樹等,還有基於關聯的分類( CBA) 及基於關聯規則的分類( ARC) 。Eskin E[13]使用 SVM 算法和基因序列 kernel 預測蛋白質在細胞質中的位置,達到了 87 % 的查準率和 71% 的 查全率。
2.2.4 文本聚類
1)研究背景
文本聚類( Text clustering) 是根據文本數據的特徵將一組對象集合按照類似性概括爲不一樣類的過 程,與文本分類的區別是分類的對象有類別標記。
2)典型應用及應用方法
常見的聚類算法可概括爲平面劃分法( 如 K - 均值算法、K - 中心點算法) ,層次聚類法( 可分爲凝 聚層 次 聚 類 和 分 割 聚 類) ,基 於 密 度 的 方 法 ( 如 DBSCAN 算法) ,基於網格的方法( 如 STING 算法) ,基於 模 型 的 方 法。
Groth P 等[14]根據顯型的描述,利用文本聚類 將基因聚類成簇,利用這些簇預測基因功能,採用客觀標準選擇一個子類團,從生物過程次本體中預測GO-術語註釋,獲得了 72. 6% 的查準率和 16. 7% 的 查全率。
2.2.5 共現分析
1)研究背景
共現( Co-occurrence) 分析主要是對隱性知識的挖掘,在生物醫學領域主要用於諸如 DNA 序列的數據分析、基因功能類似聚類、基因和蛋白質的功能信息提取、提升遠程同源性搜索、基因與肯定疾病關係預測等[15]。若是在大規模語料( 訓練語料) 中,兩個詞常常共同出現( 共現) 在同 一窗口單元( 如必定詞語間隔、一句話、一篇文檔等)中,則認爲這兩個詞在語義上是相互關聯的。並且, 共現的頻率越高,其相互間的關聯越緊密。
2)典型應用及應用方法
基於共現關係的假定,經過對訓練語料的統計,計算獲得詞與詞之間的互信息( Mutual information) ,就能夠對詞與詞之間的相關性進行量化比較,得到對文本詞彙 語義級別的關聯認識。如Pub-Gene系統使用共現方法創建了一個包含基因和基因交互關係的數據庫[16],實驗結果達到了60%的精確率和51%的召回率。當僅考慮5篇或5篇以上文章中的基因對關係時,精確率上升到72%。[]16]
2.2 決策支持系統[17]
1)研究背景
在醫學臨牀實踐中,對於醫務人員來講,做爲一個理智、情感共存的個體,在醫學實踐中不免會犯錯,這致使了醫患雙方關係的緊張、甚至生命健康的負面影響。爲了下降出錯的機率以及提升工做效率,臨牀決策支持系統應運而生,它能夠對醫務人員進行診療方面的指導。
2)典型應用及應用方法
醫療決策支持系統的創建主要分爲如下三個步驟:
2.1 知識庫的創建
詞庫是天然語言處理的基礎,首先應創建詞庫。使用醫學專業詞彙、頻率極高的謂詞、量詞等詞彙、醫療文書詞彙的經常使用組合及經常使用語句等,加上基本的語法庫,造成用於醫學語言處理的知識庫。
另外,做爲臨牀支持系統,還須要創建做爲比較條件的知識庫,使患者的各類診療要素造成必定傾向性的結果輸出。
2.2 語言處理
按照中文天然語言處理的通常步驟,進行分句、分詞、語義分析、造成文本摘要。
2.2.1 分句
分爲基本單句的分割,和句羣的分割。分句主要以基本的標點符號做爲分隔符對語言進行計算機子句分割,完成分句處理。中文主要以句號、問號、省略號等爲句羣結束符,而醫療文書基本上都是陳述句,故多以句號爲句羣結束符。
2.2.2 分詞
目前主流的分詞算法主要有三種,分別爲基於字符串匹配的分詞算法、基於理解的分詞算法和基於統計的分詞算法。從詞庫中詞條或習慣搭配短語的最大長度開始,逐漸縮短,對基本分句進行匹配詞庫中的詞條。最後把醫療文書分割爲一個個詞彙或短語。
2.2.3 語義分析、文本摘要
根據漢語基本語法,對詞彙進行重組,剔除意義不大的部分,造成摘要。以上述病程記錄進行分句、分詞爲例:
第一步、分句:句羣:今日查房,患者訴頭昏乏力減輕,腹瀉中止,進軟食。 分句:今日查房\ 患者訴頭昏乏力減輕 \ 腹瀉中止\ 進軟食
第二步、 分詞: 今日 \\ 查房\ 患者 \\ 訴\\ 頭昏\\ 乏力\\ 減輕 \ 腹瀉\\中止\ 進\\ 軟食
2.3 臨牀決策支持系統
以臨牀診療指南、操做規範爲參考,在對醫療文書進行語言處理後進行推理、分析,找出其中存在的問題。分析模型是其中的關鍵。如圖1所示,以上述病程記錄爲例:依次輸入詞彙、短語。
圖1 決策支持系統模型
在分析模型中,比照的是臨牀診療指南、操做規範,因此在創建此知識庫時,所用的詞彙、短語應該與語言處理所用的知識庫相對應,不然會增長創建分析模型的難度和複雜性。
2.3 信息提取
1)研究背景
信息抽取(Information Extraction,IE)是指從文本中抽取指定的一類事實信息,造成結構化的數據儲存在數據庫中,以供用戶對信息的查詢或進一步分析利用的過程。[18]如一位生物醫學科學家要從海量的生物醫學文獻中尋求關於某種疾病的新的治療方案,藉助於信息抽取系統抽取出的蛋白質、基因或藥物等的交互關係信息,就有可能從中發現有價值的治療線索或方法。
2)典型應用及應用方法
信息抽取技術在電子病歷中的應用
由哥倫比亞大學的Carol Friedman等人設計的MEDLEE系統也是一個很成功的醫學信息抽取系統,做爲臨牀信息系統(CIS)的一個獨立模塊在紐約長老會醫院使用,它將文本形式的病歷報告轉換成編碼數據以促進乳腺癌研究,有利於病人看護質量的提升[19]。息抽取技術在電子病歷中的成功,將克服臨牀決策支持、臨牀路徑管理等前沿醫療信息發展所面臨的諸多瓶頸問題,提高我國醫療信息技術產業的核心競爭力。
信息抽取技術在醫學文獻中的應用
國內對生物醫學文獻信息抽取研究相對較多,極大地促進了生物醫學的現代化進程,如從中藥複方的臨牀文獻進行復方名稱的抽取[20];利用信息抽取技術從Web形式的中醫藥文獻資料中抽取結構化中醫臨牀診療信息的中醫臨牀診療垂直搜索系統TCMVSE[21]。
信息抽取技術在生物醫學網絡資源中的應用
針對網絡上分佈散亂的生物醫學資源,能夠用基於HTML結構的信息抽取方法實現對生物醫學資源的抽取,將其轉換成結構化的數據存儲到數據庫中。具體過程見下圖2。
圖2 HTML文件轉換成解析樹示意圖
北京中醫藥大學在1989年完成了「中醫方劑信息智能分析支援系統」,收集了對40餘萬條方劑信息的解釋,可產生800餘萬相關數據,並於1997年獲得國家教育部博士點學科專項基金的支持,用Wed_db技術,將方劑數據庫移植到Oracle7for UNIX平臺,在Internet網上實驗性地實現了方劑數據庫的查詢和分析處理[22]。
2.4 自動問答系統
1)研究背景
隨着大數據時代的到來,對於傳統的信息檢索來講,因爲醫學專業的特殊性,面對網絡上質量良莠不齊的醫學信息,非醫學專業人員在查找、理解及獲取方面存在諸多困難和障礙。而基於自動問答的醫學信息搜尋模式做爲更智能的醫學信息資源獲取工具,不只對海量數據資源的有效利用具備重大意義,並且在必定程度上可緩解醫患之間信息不對稱、提升醫療資源利用效率,同時能更好地體現「以病人爲中心」服務理念的轉變。
2)典型應用及應用方法
2.1 基於傳統搜索技術的問答系統
基於傳統搜索技術的問答系統,在問題分析中將問題的關鍵詞和數據資源中的關鍵詞進行匹配,進而獲取可能相關的答案片斷。典型的醫學領域自動問答應用具體見表1。
表1 基於傳統檢索技術的自動問答系統相關研究
應用方法以下:
基於傳統搜索技術的問答系統的核心技術包括三個主要組成模塊:問題處理、信息檢索和答案抽取。
2.1.1 問題處理
(1)問題類型識別[23]
主要有啓發式算法(基於規則的算法)、基於機器學習的算法等。
(2)提取問題關鍵詞
可根據詞語的詞性、tfidf值或對不一樣重要程度的詞語賦予權重等方法篩選出關鍵詞。
(3)問題關鍵詞拓展[24]
主要有基於詞典的方法、基於統計的方法和相關反饋的方法。
2.1.2 信息檢索
問答系統中的信息檢索模塊利用問題處理模塊輸出的關鍵詞以及其拓展來搜索相關的段落。
主要有基於統計的方法和基於語義的方法。
基於統計的方法主要根據用戶查詢與數據全集中數據的統計量來計算相關性。目前較流行的有:布爾模型、機率模型和向量空間模型。[25]
基於語義的方法是對用戶查詢和數據全集中的數據進行必定程度的語法語義分析,也就是在對用戶查詢和數據全集中的內容進行理解的基礎上進行二者的相關計算。
2.1.3 答案抽取[26,27]
主要有根據命名實體、推理、上下文的方法。
2.2 基於語義技術的問答系統
基於語義技術的問答系統,對天然語言問題進行語義處理,實現從語義層面理解用戶提出的問題。相關的應用研究如表2,但目前相關的應用研究較少。
表2 基於語義技術問答系統相關研究
應用方法以下:
基於語義技術的問答系統在基於傳統搜索技術的問答系統的基礎上,可在問題處理模塊和答案抽取模塊加入對句子的結構進行分析(即句法分析)的方法。
在問題處理模塊裏須要經過對問句結構進行分析,根據問句的結構肯定問句的類型,同時抽取句子關鍵詞。
在答案抽取階段,可對答案的候選句子進行結構分析,進行句子類似度的計算,去除重複或相近的候選答案,最後根據問題類型抽取出答案實體。
2.5 醫學影像的信息提取和分析
1)研究背景
醫學影像報告是電子健康病歷 (electronic health record,EHR)中包含大量數字信息的重要組成部分。醫學影像中使用NLP的整體目標是挖掘診斷報告中結構化信息,並將其應用於臨牀診治過程。
2)典型應用及應用方法
根據信息提取的對象和目的不一樣,NLP可用於患者個體信息分析、患者羣體信息分析和醫學影像流程信息分析等。
1.患者個體影像診斷信息提取和分析,對患者個體疾病處理提供幫助
(1)提示「危急發現(critical findings)」:NLP檢出影像報告中描述的、可能致使嚴重後果的影像徵象,提醒處理該患者的醫師注意[28]。目前NLP可提示的危急狀況有闌尾炎、急性肺損傷、肺炎、血栓栓塞性疾病及各種潛在惡性病變等[29]。
(2)提示隨訪建議:NLP檢出報告中應提示臨牀進行後續操做的內容,自動生成隨訪建議,提示後續檢查或治療[30]。
2.患者羣體影像診斷信息提取和分析,構建患者隊列,用於流行病學研究、行政管理等
(1)流行病學研究隊列的構建:使用NLP可高效率地分析大數量、患者羣體的影像報告,獲得羣體的特徵性數據,從而提升流行病學研究效率,爲循證影像醫學研究提供幫助[31-35]。
3.醫學影像流程信息的提取和分析,用於醫學影像報告質量評價和改進
(1)報告質量評價和報告規範的創建:NLP可識別醫學影像學的流程和質量指標,判斷影像報告是否符合相關指南或診斷規則[36]。同時可用於評價報告的完整性和規範,是否給出正確的建議,是否及時進行危急狀況的預警,報告信息是否用於疾病的診斷等方面[37-39]。
(2)影像檢查全流程的改進:NLP可對各種影像的綜合信息進行分析,將報告中的檢查結果和建議等信息與全面的臨牀信息相互關聯,如檢查適應證、疾病種類、患者年齡、性別、申請 科室、申請醫師及患者類型(住院或門診)等[40]。這種大規模的數據分析在通過驗證後,可獲得預測模型,造成適合本地狀況的臨牀決策支持系統(clinical decision support system,CDSS),應可應用到計算機醫囑系統(computerized physician order entry,CPOE)中去[41]。
[1]彭春豔, 張暉, 包玲玉,等.基於條件隨機域的生物命名實體識別[J].計算機工程, 2009, 35(22):197-199.
[2]Fukuda K, Tamura A, Tsunoda T, et al. Toward information extraction: identifying protein names from biological papers.[C]// Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. Pac Symp Biocomput, 1998:707-718.
[3]Tuason O, Chen L, Liu H, et al. Biological nomenclatures: a source of lexical knowledge and ambiguity.[J]. Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing, 2004:238.
[4]Bakir G, Hofmann T, Schölkopf B, et al. Support Vector Machine Learning for Interdependent and Structured Output Spaces[C]// International Conference on Machine Learning. ACM, 2004:104.
[5]Lin Y F, Tsai T H, Chou W C, et al. A maximum entropy approach to biomedical named entity recognition[C]// International Conference on Data Mining in Bioinformatics. Springer-Verlag, 2004:56-61.
[6]Su J, Su J. Named entity recognition using an HMM-based chunk tagger[C]// Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002:473-480.
[7]Li Y, Lin H, Yang Z. Incorporating rich background knowledge for gene named entity classification and recognition[J]. Bmc Bioinformatics, 2009, 10(1):1-15.
[8]Tsuruoka Y, Mcnaught J, Ananiadou S. Normalizing biomedical terms by minimizing ambiguity and variability.[J]. Bmc Bioinformatics, 2008, 9(3):1-10.
[9]Proux D, Rechenmann F, Julliard L, et al. Detecting Gene Symbols and Names in Biological Texts: A First Step toward Pertinent Information Extraction.[C]// CiteSeer, 1998:248-255.
[10]Mcdonald R, Pereira O. Identifying gene and protein mentions in text using conditional random fields[C]// BMC Bioinformatics. 2005:S6.
[11]Cohen AM,Hersh WR.Hersh.A Survey of Current Work in Biomedical Text Mining [J].Brief Bioinform ( S1467-5463 ),2005,6(1) : 57-71.
[12]Friedman C, Kra P, Yu H, et al. GENIES: a natural-language processing system for the extraction of molecular pathways from journal articles[J]. Bioinformatics, 2001, 17 Suppl 1(suppl_1):S74.
[13]Eskin E,Agichtein E. Combining text mining and sequence analysis to discover protein functional regions [C]. Altman RB,Dunker AK,Hunter L,et al. Pac Symp Biocomput,2004: 288 - 299.
[14]Groth P,Weiss B,Pohlenz HD,et al. Mining phenotypes for genefunction prediction [J / OL ]. BMC Bioinformatics (S 1471-2105),2008,9: 136.[2009-08-20]. http: / / www.biomedcentral. com / content / pdf /1471-2105-9-136. pdf.
[15]Erhardt RA,Schneider R,Blaschke C. Status of text - mining tech -niques applied to biomedical text[J].Drug Discov Today(S 1359-6446) ,2006,11( 7 /8) : 315-325.
[16]齊彬,呂婷.共現分析技術在生物醫學信息文本數據挖掘中的應用[J].中華醫學圖書情報雜誌,2009,18( 3) :41-43.
[17]劉坤堯, 楊渝沙. 基於天然語言處理的臨牀決策支持系統[J]. 醫學信息, 2014(7).
[18]Pazienza M T. International Summer School on Information Extraction: A Multidisciplinary Approach to an Emerging Information Technology[C]// International Summer School on Information Extraction: A Multidisciplinary Approach to an Emerging Information Technology. Springer-Verlag, 1997:425–426.
[19]李瑩 . 文本病歷信息抽取方法研究 [D].杭州: 浙江大學,2009.
[20]周雪忠 . 文本挖掘在中醫藥 中的若干研究 [D] .杭州 :浙江大學 ,2009.
[21]莊 力. 中醫臨牀診療垂直搜索系統研究 [D] .北京 :北京交通大學,2009.
[22]任廷革,劉曉峯,高劍波,等.「中醫藥基礎數據庫系統」介紹[J].中國中醫藥信息雜誌,2001,8(11):90-92.
[23]張亮, 陳肇雄, 黃河燕. 問題分類的計算型研究[J]. 計算機科學, 2006, 33(4):9-12.
[24]鄭實福, 劉挺, 秦兵,等. 自動問答綜述[J]. 中文信息學報, 2002, 16(6):46-52.
[25]周麗霞. 網絡信息檢索研究綜述[J]. 情報科學, 2004, 22(4):395-399.
[26]Voorhees E M, Buckland L P. The {Eleventh Text Retrieval Conference{(TREC 2002)[J]. 2002.
[27]Aliod D M, Berri J, Hess M. A real world implementation of answer extraction[C]// International Workshop on Database and Expert Systems Applications. IEEE Computer Society, 1998:143.
[28]Lakhani P, Kim W, Langlotz C P. Automated extraction of critical test values and communications from unstructured radiology reports: an analysis of 9.3 million reports from 1990 to 2011[J]. Radiology, 2012, 265(3):809.
[29]Chapman W W, Fizman M, Chapman B E, et al. A comparison of classification algorithms to automatically identify chest X-ray reports that support pneumonia.[J]. Journal of Biomedical Informatics, 2001, 34(1):4.
[30]Zingmond D,Lenert LA.Monitoring free-text data using medical language processing[J].Comput Biomed Res,1993,26(5):467-481.
[31]Sada Y, Hou J, Richardson P, et al. Validation of Case Finding Algorithms for Hepatocellular Cancer From Administrative Data and Electronic Health Records Using Natural Language Processing.[J]. Medical Care, 2013, 54.
[32]Carrell D S, Halgrim S, Tran D T, et al. Using natural language processing to improve efficiency of manual chart abstraction in research: the case of breast cancer recurrence[J]. American Journal of Epidemiology, 2014, 179(6):749.
[33]Do B H, Wu A, Biswal S, et al. Informatics in radiology: RADTF: a semantic search-enabled, natural language processor-generated radiology teaching file[J]. Radiographics, 2010, 30(7):2039-48.
[34]Chang E K, Yu C Y, Clarke R, et al. Defining a Patient Population With Cirrhosis: An Automated Algorithm With Natural Language Processing.[J]. Journal of Clinical Gastroenterology, 2016, 50(10):889.
[35]Masino A J, Grundmeier R W, Pennington J W, et al. Temporal bone radiology report classification using open source machine learning and natural langue processing libraries[J]. Bmc Medical Informatics & Decision Making, 2016, 16(1):65.
[36]Dutta S, Long W J, Brown D F, et al. Automated detection using natural language processing of radiologists recommendations for additional imaging of incidental findings.[J]. Annals of Emergency Medicine, 2013, 62(2):162-169.
[37]Ip I K, Mortele K J, Prevedello L M, et al. Focal cystic pancreatic lesions: assessing variation in radiologists' management recommendations.[J]. International Journal of Medical Radiology, 2011, 259(1):136-41.
[38]Jr D R, Nossal M, Schofield L, et al. Physician documentation deficiencies in abdominal ultrasound reports: frequency, characteristics, and financial impact[J]. Journal of the American College of Radiology, 2012, 9(6):403-408., Prevedello L M, et al. Repeat abdominal imaging examinations in a tertiary care hospital.[J]. American Journal of Medicine, 2012, 125(2):155-161.
[39]Ip I K, Mortele K J, Prevedello L M, et al. Repeat abdominal imaging examinations in a tertiary care hospital.[J]. American Journal of Medicine, 2012, 125(2):155-161.
[40]Dang P A, Kalra M K, Blake M A, et al. Natural language processing using online analytic processing for assessing recommendations in radiology reports.[J]. Journal of the American College of Radiology, 2008, 5(3):197-204.
[41]Patel T A, Puppala M, Ogunti R O, et al. Correlating mammographic and pathologic findings in clinical decision support using natural language processing and data mining methods[J]. Cancer, 2017, 123(1):114.