簡介:CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark)包括醫學文本信息抽取、醫學術語標準化、醫學文本分類和醫學問答4大類常見的醫學天然語言處理任務。
隨着人工智能(AI)技術的不斷髮展,愈來愈多的研究者開始關注AI技術在醫學健康領域的研究應用,其中加速AI技術產業落地的一個重要環節就是標準數據集和科學評估體系的創建。由中國中文信息學會醫療健康與生物信息處理專業委員發起的中文醫療信息處理挑戰榜CBLUE[1]於今年4月份上線,該benchmark覆蓋了8種經典的醫學天然語言理解任務,是業界首個公開的中文醫療信息領域的公開評測基準,上線後受到了普遍關注,目前已經吸引了100多支隊伍參與打榜。 近日,CBLUE工做組公開了論文[2]並開源了評測基準baseline[3],但願對中文醫療AI社區的技術發展起到促進做用。本文對常見的醫學天然語言理解任務以及模型方法作一個全面介紹。git
CBLUE的全稱是Chinese Biomedical Language Understanding Evaluation Benchmark,包括醫學文本信息抽取、醫學術語標準化、醫學文本分類和醫學問答4大類常見的醫學天然語言處理任務。CBLUE爲研究者們提供真實場景數據的同時,也爲多個任務提供了統一的測評方式,目的是促進研究者們關注AI模型的泛化能力。
下面是各個子任務的簡單介紹:github
(1) 醫學信息抽取:算法
(2)醫學術語歸一化:安全
(3)醫學文本分類:app
(4)醫學檢索和問答:性能
CBLUE工做組對評測基準包含的8個任務作了特色總結:網站
以Bert[4]爲表明,大規模預訓練語言模型已經成爲了NLP問題求解的新範式,所以CBLUE工做組也選擇了11種最多見的中文預訓練語言模型做爲baseline來進行充分的實驗,並對數據集性能進行了詳盡的評估,目前是業界最全的中文醫療天然語言理解任務基線,能夠幫助從業人員解決常見的醫學天然語言理解問題。ui
11種實驗的預訓練語言模型簡介以下:搜索引擎
-RoBERTa-large[6]. 與BERT相比,RoBERTa去除了下句預測(Next Sentence Prediction,NSP)任務,並動態選擇對訓練數據的遮蔽方式;阿里雲
下圖爲11種預訓練模型在CBLUE上的基線表現:
如上表所示,使用更大的預訓練語言模型,能夠得到更好的性能。在某些任務中,使用全詞遮蔽的模型並不比其餘模型表現好,例如CTC、QIC、QTR和QQR,這代表CBLUE中的任務具備必定的挑戰性,須要更好的模型來解決。此外,咱們發現albert-tiny在CDN、STS、QTR和QQR的任務中實現了與基礎模型至關的性能,說明較小的模型在特定的任務中也多是有效的。最後,咱們注意到醫學預訓練語言模型PCL-MedBERT的性能不如預期的好,這進一步證實了CBLUE的難度,當前的模型可能很難快速取得出色的效果。
CBLUE挑戰榜的目標是可讓研究人員在合法、開放、共享的理念下有效的使用真實場景的數據,經過多任務場景設置來讓研究者們更加關注模型的泛化性能。同時也但願公開的基線評測代碼能有效的促進醫療AI社區的技術進步。Baseline代碼地址是:https://github.com/CBLUEbenchmark/CBLUE , 以爲有幫助的讀者能夠star該項目。但願在挑戰榜上一展身手的小夥伴們請移步: https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge
[1].https://mp.weixin.qq.com/s/wIqPaa7WBgkxUGLku0RBEw
[2]. https://arxiv.org/pdf/2106.08087.pdf
[3]. https://github.com/CBLUEbenchmark/CBLUE
[4]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL-HLT, 2018.
[5]. Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101, 2019.
[6]. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and V eselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.
[7]. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942, 2019.
[8]. Shizhe Diao, Jiaxin Bai, Y an Song, Tong Zhang, and Y onggang Wang. Zen: pre-training chinese text encoder enhanced by n-gram representations. arXiv preprint arXiv:1911.00720, 2019.
[9]. Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, and Guoping Hu. Revisiting pre-trained models for chinese natural language processing. arXiv preprint arXiv:2004.13922, 2020.
[10]. https://code.ihub.org.cn/projects/1775
本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。