一文詳解常見醫學天然語言理解任務和算法

簡介:CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark)包括醫學文本信息抽取、醫學術語標準化、醫學文本分類和醫學問答4大類常見的醫學天然語言處理任務。

 title=

1. 引言

隨着人工智能(AI)技術的不斷髮展,愈來愈多的研究者開始關注AI技術在醫學健康領域的研究應用,其中加速AI技術產業落地的一個重要環節就是標準數據集和科學評估體系的創建。由中國中文信息學會醫療健康與生物信息處理專業委員發起的中文醫療信息處理挑戰榜CBLUE[1]於今年4月份上線,該benchmark覆蓋了8種經典的醫學天然語言理解任務,是業界首個公開的中文醫療信息領域的公開評測基準,上線後受到了普遍關注,目前已經吸引了100多支隊伍參與打榜。 近日,CBLUE工做組公開了論文[2]並開源了評測基準baseline[3],但願對中文醫療AI社區的技術發展起到促進做用。本文對常見的醫學天然語言理解任務以及模型方法作一個全面介紹。git

2.任務介紹

CBLUE的全稱是Chinese Biomedical Language Understanding Evaluation Benchmark,包括醫學文本信息抽取、醫學術語標準化、醫學文本分類和醫學問答4大類常見的醫學天然語言處理任務。CBLUE爲研究者們提供真實場景數據的同時,也爲多個任務提供了統一的測評方式,目的是促進研究者們關注AI模型的泛化能力。
 title=
下面是各個子任務的簡單介紹:github

(1) 醫學信息抽取:算法

  • CMeEE(Chinese Medical Entity Extraction dataset):醫學實體識別任務, 識別出醫學文本中的關鍵術語,如「疾病」、「藥品」、「檢查檢驗」等。任務聚焦於兒科類常見疾病,數據來源於權威的醫學教科書和專家指南。
  • CMeIE(Chinese Medical Information Extraction dataset):醫學關係抽取任務,用於斷定醫學文本中兩個實體之間的關係,如「類風溼性關節炎」與「關節壓痛計數」 之間存在「疾病-檢查」的關係,數據源同CMeEE。實體識別和關係抽取是醫學天然語言處理中很是基礎的技術,可應用於電子病歷結構化、醫學知識圖譜建設等。

(2)醫學術語歸一化:安全

  • CHIP-CDN(CHIP - Clinical Diagnosis Normalization dataset):醫學臨牀術語標準化任務。 臨牀上,關於同一種診斷、手術、藥品、檢查、症狀等每每會有成百上千種不一樣的寫法(如:「Ⅱ型糖尿病」、「糖尿病(2型)」和「2型糖尿病」均表示同一個概念), 標準化要解決的問題就是爲臨牀上各類不一樣的寫法找到對應的標準說法(如「ICD編碼」)。在真實應用中,術語標準化技術在醫保結算、DRGs(診斷自動分組)產品中發揮着重要做用。數據集來源於真實的醫生書寫的「診斷」條目,不涉及患者隱私。

(3)醫學文本分類:app

  • CHIP-CTC(CHIP - Clinical Trial Criterion dataset):臨牀試驗篩選標準分類任務。臨牀試驗是指經過人體志願者也稱爲受試者進行的科學研究,目的是肯定一種藥物或一項治療方法的療效、安全性以及存在的反作用,對促進醫學發展和提升人類健康都起着關鍵的做用。篩選標準是臨牀試驗負責人擬定的鑑定受試者是否知足某項臨牀試驗的主要指標(如「年齡」),臨牀試驗的受試者招募通常是經過人工比較病歷記錄表和臨牀試驗篩選標準完成,這種方式費時費力且效率低下。本數據集建設的目的就是爲了促進使用AI技術來自動作臨牀試驗篩選分類,提高科研效率。數據集來源於公開的中文臨牀試驗註冊網站,均有真實臨牀試驗構成。
  • KUAKE-QIC(KUAKE - Query Intention Classification dataset),醫療搜索用戶查詢意圖識別任務,目標是爲了提升搜索結果相關度。如用戶查詢「糖尿病該作什麼檢查?」的意圖是想搜索相關的「治療方案」。數據來源於搜索引擎的用戶檢索詞條。

(4)醫學檢索和問答:性能

  • CHIP-STS(CHIP - Semantic Textual Similarity dataset):醫學句子語義匹配任務。給定來自不一樣病種的問句對,斷定兩個句子語義是否相近,如「糖尿病吃什麼?」和「糖尿病的食譜?」是語義相關的;「乙肝小三陽的危害」和「乙肝大三陽的危害」是語義不相關的。數據來源於脫敏過的互聯網在線問診數據。
  • KUAKE-QTR(KUAKE – Query/Title Relevance dataset):醫學搜索「檢索詞-頁面標題」相關度匹配任務,用於斷定搜索引擎場景中用戶檢索詞與返回頁面的標題之間的相關度,目標是提高搜索結果的相關度。
  • KUAKE-QQR(KUAKE – Query/Query Relevance dataset):醫學搜索「檢索詞-檢索詞」相關度匹配任務,同QTR任務,用於斷定兩個檢索詞之間的語義相關度,目標是提高搜索場景中經典的用戶檢索長尾詞的召回率。

3.任務特色

CBLUE工做組對評測基準包含的8個任務作了特色總結:網站

  1. 數據匿名且保護隱私: 生物醫學數據一般包含敏感信息,所以對這些數據的利用可能侵犯我的隱私。對此,咱們在發佈基準以前對數據進行不影響數據有效性的匿名化,並逐一進行了人工檢查。
  2. 任務數據來源豐富: 如「醫學信息抽取」大類的任務來源於醫學教科書和專家權威指南;「醫學文本分類」任務來源於真實開放的臨牀試驗數據;「醫學問答」類任務來源於搜索引擎或者互聯網在線問診語料。這些豐富的場景和數據多樣性爲科研人員提供了研究AI算法最重要的寶礦,同時也對AI算法模型的通用性提出了更高的挑戰。
  3. 任務分佈真實: CBLUE榜單中的全部數據都來自現實世界,數據真實且有噪音,所以對模型的魯棒性提出了更高的要求。以「醫學信息抽取」大類任務爲例:數據集遵循長尾分佈,如圖(a)所示;此外,一些數據集(如CMeIE)具備粗粒度和細粒度關係標籤的層次結構,這是符合醫學常識邏輯和人類認知的,如圖(b)所示。真實世界數據分佈爲AI模型的泛化能力和拓展性提出了更高的要求。

 title=

4.方法介紹

以Bert[4]爲表明,大規模預訓練語言模型已經成爲了NLP問題求解的新範式,所以CBLUE工做組也選擇了11種最多見的中文預訓練語言模型做爲baseline來進行充分的實驗,並對數據集性能進行了詳盡的評估,目前是業界最全的中文醫療天然語言理解任務基線,能夠幫助從業人員解決常見的醫學天然語言理解問題。ui

11種實驗的預訓練語言模型簡介以下:搜索引擎

  • BERT-base[4]. 具備12層,768維表示,12個注意力頭,總計110M參數的BERT基準模型;
  • BERT-wwm-ext-base[5]. 使用全詞遮蔽(Whole Word Masking,WWM)的中文預訓練BERT基準模型;

-RoBERTa-large[6]. 與BERT相比,RoBERTa去除了下句預測(Next Sentence Prediction,NSP)任務,並動態選擇對訓練數據的遮蔽方式;阿里雲

  • RoBERTa-wwm-ext-base/large. 綜合RoBERTa和BERT-wwm優點的預訓練模型;
  • ALBERT-tiny/xxlarge[7]. ALBERT是在transformer的不一樣層共享權重,針對兩個目標任務:遮蔽語言建模(Masked Language Model,MLM)和句子排序預測(Sentence Order Prediction,SOP)進行預訓練的模型;
  • ZEN[8]. 基於BERT的n-gram加強中文文本編碼器;
  • Mac-BERT-base/large[9]. Mac-BERT是一種改進的BERT,採用MLM做爲校訂預訓練任務,減小了預訓練和微調階段的差別;
  • PCL-MedBERT[10]. 由鵬程實驗室智能醫學研究小組提出的一種醫學預訓練語言模型,在醫學問題匹配和命名實體識別方面具備優異的性能。

5.性能評估&分析

下圖爲11種預訓練模型在CBLUE上的基線表現:
 title=
如上表所示,使用更大的預訓練語言模型,能夠得到更好的性能。在某些任務中,使用全詞遮蔽的模型並不比其餘模型表現好,例如CTC、QIC、QTR和QQR,這代表CBLUE中的任務具備必定的挑戰性,須要更好的模型來解決。此外,咱們發現albert-tiny在CDN、STS、QTR和QQR的任務中實現了與基礎模型至關的性能,說明較小的模型在特定的任務中也多是有效的。最後,咱們注意到醫學預訓練語言模型PCL-MedBERT的性能不如預期的好,這進一步證實了CBLUE的難度,當前的模型可能很難快速取得出色的效果。

6.結束語

CBLUE挑戰榜的目標是可讓研究人員在合法、開放、共享的理念下有效的使用真實場景的數據,經過多任務場景設置來讓研究者們更加關注模型的泛化性能。同時也但願公開的基線評測代碼能有效的促進醫療AI社區的技術進步。Baseline代碼地址是:https://github.com/CBLUEbenchmark/CBLUE , 以爲有幫助的讀者能夠star該項目。但願在挑戰榜上一展身手的小夥伴們請移步: https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge

7.參考

[1].https://mp.weixin.qq.com/s/wIqPaa7WBgkxUGLku0RBEw

[2]. https://arxiv.org/pdf/2106.08087.pdf

[3]. https://github.com/CBLUEbenchmark/CBLUE

[4]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL-HLT, 2018.

[5]. Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101, 2019.

[6]. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and V eselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.

[7]. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942, 2019.

[8]. Shizhe Diao, Jiaxin Bai, Y an Song, Tong Zhang, and Y onggang Wang. Zen: pre-training chinese text encoder enhanced by n-gram representations. arXiv preprint arXiv:1911.00720, 2019.

[9]. Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, and Guoping Hu. Revisiting pre-trained models for chinese natural language processing. arXiv preprint arXiv:2004.13922, 2020.

[10]. https://code.ihub.org.cn/projects/1775

本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。
相關文章
相關標籤/搜索