2. 知識圖譜-命名實體識別(NER)詳解

1. 通俗易懂解釋知識圖譜(Knowledge Graph)

2. 知識圖譜-命名實體識別(NER)詳解

3. 哈工大LTP解析

1. 前言

在解了知識圖譜的全貌以後,咱們如今慢慢的開始深刻的學習知識圖譜的每一個步驟。今天介紹知識圖譜裏面的NER的環節。html

命名實體識別(Named Entity Recognition,簡稱NER),是指識別文本中具備特定意義的實體,主要包括人名、地名、機構名、專有名詞等。一般包括兩部分:(1)實體邊界識別;(2) 肯定實體類別(人名、地名、機構名或其餘)。算法

2. NER形勢

NER當前並不算是一個大熱的研究課題,由於學術界部分學者認爲這是一個已經解決的問題。固然也有學者認爲這個問題尚未獲得很好地解決,緣由主要有:命名實體識別只是在有限的文本類型(主要是新聞語料中)和實體類別(主要是人名、地名、組織機構名)中取得了不錯的效果;與其餘信息檢索領域相比,實體命名評測預料較小,容易產生過擬合;命名實體識別更側重高召回率,但在信息檢索領域,高準確率更重要;通用的識別多種類型的命名實體的系統性能不好。網絡

2.1 中文NER問題

中文的命名實體識別與英文的相比,挑戰更大,目前未解決的難題更多。英語中的命名實體具備比較明顯的形式標誌,即實體中的每一個詞的第一個字母要大寫,因此實體邊界識別相對容易,任務的重點是肯定實體的類別。和英語相比,漢語命名實體識別任務更加複雜,並且相對於實體類別標註子任務,實體邊界的識別更加困難。框架

漢語命名實體識別的難點主要存在於:dom

  1. 漢語文本沒有相似英文文本中空格之類的顯式標示詞的邊界標示符,命名實體識別的第一步就是肯定詞的邊界,即分詞。
  2. 漢語分詞和命名實體識別互相影響。
  3. 除了英語中定義的實體,外國人名譯名和地名譯名是存在於漢語中的兩類特殊實體類型。
  4. 現代漢語文本,尤爲是網絡漢語文本,常出現中英文交替使用,這時漢語命名實體識別的任務還包括識別其中的英文命名實體。
  5. 不一樣的命名實體具備不一樣的內部特徵,不可能用一個統一的模型來刻畫全部的實體內部特徵。

3. NER方法

當前命名實體識別的主要技術方法分爲:基於規則和詞典的方法、基於統計的方法、兩者混合的方法、神經網絡的方法等。機器學習

3.1 基於規則和詞典的方法

基於規則的方法多采用語言學專家手工構造規則模板,選用特徵包括統計信息、標點符號、關鍵字、指示詞和方向詞、位置詞(如尾字)、中心詞等方法,以模式和字符串相匹配爲主要手段,這類系統大多依賴於知識庫和詞典的創建。分佈式

  • 缺點
  1. 這類系統大多依賴於知識庫和詞典的創建。
  2. 系統可移植性很差,對於不一樣的系統須要語言學專家從新書寫規則。
  3. 代價太大,系統建設週期長。

3.2 基於統計的方法

基於統計機器學習的方法主要包括:隱馬爾可夫模型(HiddenMarkovMode,HMM)最大熵(MaxmiumEntropy)支持向量機(Support VectorMachine,SVM)條件隨機場(ConditionalRandom Fields)性能

  • 特色
  1. 最大熵模型有較好的通用性,主要缺點是訓練時間複雜性很是高。
  2. 條件隨機場特徵靈活、全局最優的標註框架,但同時存在收斂速度慢、訓練時間長的問題。
  3. 隱馬爾可夫模型在訓練和識別時的速度要快一些,Viterbi算法求解命名實體類別序列的效率較高。
  4. 最大熵和支持向量機在正確率上要比隱馬爾可夫模型高。
  5. 基於統計的方法對語料庫的依賴也比較大

3.3 混合方法

天然語言處理並不徹底是一個隨機過程,單獨使用基於統計的方法使狀態搜索空間很是龐大,必須藉助規則知識提早進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在不少狀況下是使用混合方法,主要包括:學習

  1. 統計學習方法之間或內部層疊融合。
  2. 規則、詞典和機器學習方法之間的融合,其核心是融合方法技術。在基於統計的學習方法中引入部分規則,將機器學習和人工知識結合起來。
  3. 將各種模型、算法結合起來,將前一級模型的結果做爲下一級的訓練數據,並用這些訓練數據對模型進行訓練,獲得下一級模型。

3.4 基於神經網絡的方法

近年來,隨着硬件能力的發展以及詞的分佈式表示(word embedding)的出現,神經網絡成爲能夠有效處理許多NLP任務的模型。主要的模型有NN/CNN-CRF、RNN-CRF、LSTM-CRF。翻譯

神經網絡能夠分爲如下幾個步驟。

  1. 對於序列標註任務(如CWS、POS、NER)的處理方式是相似的,將token從離散one-hot表示映射到低維空間中成爲稠密的embedding。
  2. 將句子的embedding序列輸入到RNN中,用神經網絡自動提取特徵。
  3. Softmax來預測每一個token的標籤。
  • 優勢
  1. 神經網絡模型的訓練成爲一個端到端的總體過程,而非傳統的pipeline
  2. 不依賴特徵工程,是一種數據驅動的方法。
  • 缺點
  1. 網絡變種多、對參數設置依賴大。
  2. 模型可解釋性差。
  3. 每一個token打標籤的過程當中是獨立的分類,不能直接利用上文已經預測的標籤。

4. 總結

從語言分析的全過程來看,命名實體識別屬於詞法分析中未登陸詞識別的範疇。命名實體識別是未登陸詞中數量最多、識別難度最大、對分詞效果影響最大的問題,同時它也是信息抽取、信息檢索、機器翻譯、問答系統等多種天然語言處理技術必不可少的組成部分。

相關文章
相關標籤/搜索