在解了知識圖譜的全貌以後,咱們如今慢慢的開始深刻的學習知識圖譜的每一個步驟。今天介紹知識圖譜裏面的NER的環節。html
命名實體識別(Named Entity Recognition,簡稱NER),是指識別文本中具備特定意義的實體,主要包括人名、地名、機構名、專有名詞等。一般包括兩部分:(1)實體邊界識別;(2) 肯定實體類別(人名、地名、機構名或其餘)。算法
NER當前並不算是一個大熱的研究課題,由於學術界部分學者認爲這是一個已經解決的問題。固然也有學者認爲這個問題尚未獲得很好地解決,緣由主要有:命名實體識別只是在有限的文本類型(主要是新聞語料中)和實體類別(主要是人名、地名、組織機構名)中取得了不錯的效果;與其餘信息檢索領域相比,實體命名評測預料較小,容易產生過擬合;命名實體識別更側重高召回率,但在信息檢索領域,高準確率更重要;通用的識別多種類型的命名實體的系統性能不好。網絡
中文的命名實體識別與英文的相比,挑戰更大,目前未解決的難題更多。英語中的命名實體具備比較明顯的形式標誌,即實體中的每一個詞的第一個字母要大寫,因此實體邊界識別相對容易,任務的重點是肯定實體的類別。和英語相比,漢語命名實體識別任務更加複雜,並且相對於實體類別標註子任務,實體邊界的識別更加困難。框架
漢語命名實體識別的難點主要存在於:dom
當前命名實體識別的主要技術方法分爲:基於規則和詞典的方法、基於統計的方法、兩者混合的方法、神經網絡的方法等。機器學習
基於規則的方法多采用語言學專家手工構造規則模板,選用特徵包括統計信息、標點符號、關鍵字、指示詞和方向詞、位置詞(如尾字)、中心詞等方法,以模式和字符串相匹配爲主要手段,這類系統大多依賴於知識庫和詞典的創建。分佈式
基於統計機器學習的方法主要包括:隱馬爾可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy)、支持向量機(Support VectorMachine,SVM)、條件隨機場(ConditionalRandom Fields)。性能
天然語言處理並不徹底是一個隨機過程,單獨使用基於統計的方法使狀態搜索空間很是龐大,必須藉助規則知識提早進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在不少狀況下是使用混合方法,主要包括:學習
近年來,隨着硬件能力的發展以及詞的分佈式表示(word embedding)的出現,神經網絡成爲能夠有效處理許多NLP任務的模型。主要的模型有NN/CNN-CRF、RNN-CRF、LSTM-CRF。翻譯
神經網絡能夠分爲如下幾個步驟。
從語言分析的全過程來看,命名實體識別屬於詞法分析中未登陸詞識別的範疇。命名實體識別是未登陸詞中數量最多、識別難度最大、對分詞效果影響最大的問題,同時它也是信息抽取、信息檢索、機器翻譯、問答系統等多種天然語言處理技術必不可少的組成部分。