《A hybrid system for entity recognition ...》閱讀筆記

A hybrid system for entity recognition from Chinese clinical text算法

哈工大的湯步洲副教授帶隊參加CCKS2017測評任務——中文臨牀醫療文本命名實體識別,並得到了第一名的好成績:F1 Score在嚴格和鬆弛兩個標準下分別爲91.08%和94.26%.網絡

在摘要中,做者提出了一種混合系統,它將Rule、CRF、RNN、帶特徵的RNN四種方法融合在一塊兒,並在最後添加一個投票機制。下圖是系統的架構:架構

Rule-based Method機器學習

做者對每一類實體(任務中規定爲實體類別有身體部位、疾病、症狀、檢查、手術和藥品等)都構建了詞典,數據來源與百度百科和尋醫問藥。而後,基於這些詞典構建了規則來識別實體的模式(pattern)。好比「右側小腦」一詞,「小腦」會被詞典匹配標識出來,「右側」經過規則擴展出來。再好比,「有心臟病病史」中「心臟病」會根據「有...病史」這一規則抽取出來。ide

CRF-based Method(這一塊不是很懂)工具

使用CRF++工具,使用的特徵包括:n-gram(n元語法),radical feature,spelling feature(拼寫特徵),word segmentation(分詞),part-of-speech(詞性),section head(小節頭),relation feature(關係特徵),distributed representation of word(詞的分佈表示),rule feature(規則特徵)等等。學習

RNN-based Method測試

暫時不寫blog

Voting and Self-trainingit

投票機制很好理解,只有當一個候選實體被至少兩種方法選中,它纔會被選擇爲命名實體。而自訓練是由於大賽組委除了給了一個標註的訓練集,還給了一個沒有標記的數據集,做者在這個未標記的數據集上分別運行以上四個方法,而後根據投票機制得出最終結果,並把這個做爲第二份訓練數據集。最後將原始訓練集與第二份訓練集合並,獲得新的、更大的訓練集。在上面完成訓練後,再標註測試集。

實驗

爲了不分詞工具在分詞時的實體邊界錯誤,實驗直接把句子劃分紅漢字。而後用「BIOES」(B-begin,I-inside,O-outside,E-end,S-single)標籤來表示實體。對於神經網絡模型,做者使用隨機梯度降低算法來做參數估計,並使用word2vec工具從訓練集和未標記數據集中學習並獲得訓練前漢字的嵌入。特徵表示(feature representation)隨機從範圍爲[-1,1]的均勻分佈中初始化獲得。

結論

結論是,在上述幾個獨立的方法中,BI-LSTM表現得比Rule-based和CRF都要好。使用未標記數據集做自訓練,在嚴格標準下基於機器學習的方法的F1 Score會提升1%。

相關文章
相關標籤/搜索