學習筆記CB007:分詞、命名實體識別、詞性標註、句法分析樹

中文分詞把文本切分紅詞語,還能夠反過來,把該拼一塊兒的詞再拼到一塊兒,找到命名實體。算法

機率圖模型條件隨機場適用觀測值條件下決定隨機變量有有限個取值狀況。給定觀察序列X,某個特定標記序列Y機率,指數函數 exp(∑λt+∑μs)。符合最大熵原理。基於條件隨機場命名實體識別方法屬於有監督學習方法,利用已標註大規模語料庫訓練。微信

命名實體的放射性。命名實體的先後詞。網絡

特徵模板,當前位置先後n個位置字/詞/字母/數字/標點做爲特徵,基於已經標註好語料,詞性、詞形已知。特徵模板選擇和具體識別實體類別有關。機器學習

命名實體,人名(政治家、藝人等)、地名(城市、州、國家、建築等)、組織機構名、時間、數字、專有名詞(電影名、書名、項目名、電話號碼等)。命名性指稱、名詞性指稱和代詞性指稱。函數

詞形上下文訓練模型,給定詞形上下文語境中產生實體機率。詞性上下文訓練模型,給定詞性上下文語境中產生實體機率。給定實體詞形串做爲實體機率。給定實體詞性串做爲實體機率。學習

詞性,名、動、形、數、量、代、副、介、連、助、嘆、擬聲。天然語言處理詞性,區別詞、方位詞、成語、習用語、機構團體、時間詞,多達100多種。漢語詞性標註最大困難「兼類」,一個詞在不一樣語境中有不一樣詞性,很難從形式上識別。blog

詞性標註過程。標註,根據規則或統計方法作詞性標註。校驗,一致性檢查和自動校對方法修正。遞歸

統計模型詞性標註方法。大量已標註語料庫訓練,選擇合適訓練用數學模型,機率圖隱馬爾科夫模型(HMM)適合詞性標註基於觀察序列標註情形。get

隱馬爾可夫模型參數初始化。模型參數初始化,在利用語料庫前用最小成本和最接近最優解目標設定初值。HMM,基於條件機率生成式模型,模型參數生成機率,假設每一個詞生成機率是全部可能詞性個數倒數,計算最簡單最有可能接近最優解生成機率。每一個詞全部可能詞性,已有詞表標記,詞表生成方法簡單,已標註語料庫,很好統計。生成機率初值設置0。數學

規則詞性標註方法。既定搭配關係上下文語境規則,判斷實際語境按照規則標註詞性。適合既有規則,對兼詞詞性識別效果好,不適合網絡新詞層出不窮、網絡用語新規則。機器學習自動提取規則,初始標註器標註結果和人工標註結果差距,生成修正標註轉換規則,錯誤驅動學習方法。通過人工校總結大量有用信息補充調整規則庫。

統計方法、規則方法相結合詞性標註方法。規則排歧,統計標註,最後校對,獲得正確標註結果。首選統計方法標註,同時計算計算置信度或錯誤率,判斷結果是否可疑,在可疑狀況下采用規則方法歧義消解,達到最佳效果。

詞性標註校驗。校驗肯定正確性,修正結果。檢查詞性標註一致性。一致性,全部標註結果,相同語境同一個詞標註相同。兼類詞,被標記不一樣詞性。非兼類詞,人工校驗或其餘緣由致使標記不一樣詞性。詞數目多,詞性多,一致性指標沒法計算公式求得,基於聚類和分類方法,根據歐式距離定義一致性指標,設定閾值,保證一致性在閾值範圍內。詞性標註自動校對。不須要人蔘與,直接找出錯誤標註修正,適用一個詞詞性標註通篇全錯,數據挖掘和規則學習方法判斷相對準確。大規模訓練語料生成詞性校對決策表,找通篇全錯詞性標註自動修正。

句法分析樹生成。把一句話按照句法邏輯組織成一棵樹。

句法分析分句法結構分析和依存關係分析。句法結構分析是短語結構分析,提取出句子名詞短語、動詞短語等。分基於規則的分析方法和基於統計分析方法。基於規則方法存在不少侷限性。基於統計方法,基於機率上下文無關文法(PCFG),終結符集合、非終結符集合、規則集。

先展現簡單例子,感覺計算過程,再敘述理論。

終結符集合,表示有哪些字可做句法分析樹葉子節點。非終結符集合,表示樹非頁子節點,鏈接多個節點表達關係節點,句法規則符號。規則集,句法規則符號,模型訓練機率值左部相同的機率和必定是1。

一句話句法結構樹可能有多種,只選擇機率最大做句子最佳結構。 設W={ω1ω2ω3……}表示一個句子,其中ω表示一個詞(word),利用動態規劃算法計算非終結符A推導出W中子串ωiωi+1ωi+2……ωj的機率,假設機率爲αij(A),遞歸公式,αij(A)=P(A->ωi),αij(A)=∑∑P(A->BC)αik(B)α(k+1)j(C)。

句法規則提取方法與PCFG的機率參數估計。大量的樹庫,訓練數據。樹庫中句法規則提取生成結構形式,進行合併、概括等處理,獲得終結符集合∑、非終結符集合N、規則集R。機率參數計算方法,給定參數一個隨機初始值,採用EM迭代算法,不斷訓練數據,計算每條規則使用次數做爲最大似然計算獲得機率估值,不斷迭代更新機率,最終得出機率符合最大似然估計精確值。

參考資料:

《Python 天然語言處理》

http://www.shareditor.com/blo...

http://www.shareditor.com/blo...

http://www.shareditor.com/blo...

歡迎推薦上海機器學習工做機會,個人微信:qingxingfengzi

相關文章
相關標籤/搜索