筆記轉載於GitHub項目:https://github.com/NLP-LOVE/Introduction-NLPhtml
語法分析(syntactic parsing )是天然語言處理中一個重要的任務,其目標是分析句子的語法結構並將其表示爲容易理解的結構(一般是樹形結構)。同時,語法分析也是全部工具性NLP任務中較爲高級、較爲複雜的一種任務。 經過掌握語法分析的原理、實現和應用,咱們將在NLP工程師之路上跨越一道分水嶺。 本章將會介紹短語結構樹和依存句法樹兩種語法形式,而且着重介紹依存句法分析的原理和實現。python
語言其實具有自頂而下的層級關係,固定數量的語法結構可以生成無數句子。好比,僅僅利用下列兩個語法規律,咱們就可以生成全部名詞短語。git
例如,「上海+浦東+機場+航站樓」,因此,漢語中大部分句子均可以經過這樣的語法來生成。github
在語言學中,這樣的語法被稱爲上下文無關文法,它由以下組件構成:正則表達式
基於上下文無關文法理論,咱們能夠從 S 出發,逐步推導非終結符。一個非終結符至少產生一個下級符號,如此一層一層地遞推下去,咱們就獲得了一棵語法樹。但在NLP中,咱們稱其爲短語結構樹。也就是說,計算機科學中的術語「上下文無關文法」在語言學中被稱做「短語結構語法」。算法
短語結構樹api
短語結構語法描述瞭如何自頂而下的生成一個句子,反過來,句子也能夠用短語結構語法來遞歸的分解。層級結構實際上是一種樹形結構,例如這句話「上海 浦東 開發 與 法制 建設 同步」,分解成以下圖的短語結構樹:框架
這樣的樹形結構稱爲短語結構樹,相應的語法稱爲*短語結構語法**或上下文無關文法。至於樹中的字母下面開始介紹。機器學習
賓州樹庫和中文樹庫ide
語言學家制定短語結構語法規範,將大量句子人工分解爲樹形結構,造成了一種語料庫,稱爲樹庫( treebank )。常見的英文樹庫有賓州樹庫,相應地,中文領域有CTB。上圖中葉子節點(詞語)的上級節點爲詞性,詞性是非終結符的一種,知足「詞性生成詞語」的推導規則。
常見的標記以下:
標記 | 釋義 |
---|---|
IP-HLN | 單句-標題 |
NP-SBJ | 名詞短語-主語 |
NP-PN | 名詞短語-代詞 |
NP | 名詞短語 |
VP | 動詞短語 |
可是因爲短語結構語法比較複雜,相應句法分析器的準確率並不高,如今研究者絕大部分轉向了另外一種語法形式。
不一樣於短語結構樹,依存句法樹並不關注如何生成句子這種宏大的命題。依存句法樹關注的是句子中詞語之間的語法聯繫,而且將其約束爲樹形結構。
依存句法理論
依存語法理論認爲詞與詞之間存在主從關係,這是一種二元不等價的關係。在句子中,若是一個詞修飾另外一個詞,則稱修飾詞爲從屬詞( dependent ),被修飾的詞語稱爲支配詞(head),二者之間的語法關係稱爲依存關係( dependency relation)。好比句子「大夢想」中形容詞「大」與名詞「夢想"之間的依存關係如圖所示:
圖中的箭頭方向由支配詞指向從屬詞,這是可視化時的習慣。將一個句子中全部詞語的依存關係以有向邊的形式表示出來,就會獲得一棵樹,稱爲依存句法樹( dependency parse tree)。好比句子「弱小的我也有大夢想」的依存句法樹如圖所示。
現代依存語法中,語言學家 Robinson 對依存句法樹提了 4 個約束性的公理。
這 4 條公理分別約束了依存句法樹(圖的特例)的根節點惟一性、 連通、無環和投射性( projective )。這些約束對語料庫的標註以及依存句法分析器的設計奠基了基礎。
中文依存句法樹庫
目前最有名的開源自由的依存樹庫當屬UD ( Universal Dependencies),它以「署名-非商業性使用-相同方式共享4.0」等相似協議免費向公衆受權。UD是個跨語種的語法標註項目,一共有 200 多名貢獻者爲 70 多種語言標註了 100 多個樹庫。具體到中文,存在4個不一樣領域的樹庫。本章選取其中規模最大的 UD_ Chinese GSD 做爲示例。該樹庫的語種爲繁體中文,將其轉換爲簡體中文後,供你們下載使用。
http://file.hankcs.com/corpus/chs-gsd-ud.zip
該樹庫的格式爲 CoNLL-U,這是一種以製表符分隔的表格格式。CoNLL-U 文件有10列,每行都是一個單詞, 空白行表示句子結束。單元中的下劃線 _ 表示空白, 結合其中一句樣例,解釋如表所示。
詞性標註集合依存關係標註集請參考 UD 的官方網站:
http://niversaldependencies.org/guidelines.html
另外一份著名的語料庫依然是 CTB,只不過須要額外利用一些工具將短語結構樹轉換爲依存句法樹。讀者能夠直接下載轉換後的 CTB 依存句法樹庫,其格式是相似於 CoNLl-U 的 CoNLL。
依存句法樹的可視化
工具以下:
可視化工具能夠幫助咱們理解句法樹的結構,比較句子之間的不一樣。
依存句法分析( dependency parsing )指的是分析句子的依存語法的一種中高級 NLP任務,其輸人一般是詞語和詞性,輸出則是一棵依存句法樹。 本節介紹實現依存句法分析的兩種宏觀方法,以及依存句法分析的評價指標。
基於圖的依存句法分析
正如樹是圖的特例同樣,依存句法樹實際上是徹底圖的一個子圖。若是爲徹底圖中的每條邊是否屬於句法樹的可能性打分,而後就能夠利用 Prim 之類的算法找出最大生成樹( MST )做爲依存句法樹了。這樣將整棵樹的分數分解( factorize )爲每條邊上的分數之和,而後在圖上搜索最優解的方法統稱爲基於圖的算法。
在傳統機器學習時代,基於圖的依存句法分析器每每面臨運行開銷大的問題。這是因爲傳統機器學習所依賴的特徵過於稀疏,訓練算法須要在整個圖上進行全局的結構化預測等。考慮到這些問題,另外一種基於轉移的路線在傳統機器學習框架下顯得更加實用。
基於轉移的依存句法分析
咱們以「人 吃 魚」這個句子爲例子,手動構建依存句法樹。
如此,咱們將一棵依存句法樹的構建過程表示爲兩個動做。若是機器學習模型可以根據句子的某些特徵準確地預測這些動做,那麼計算機就可以根據這些動做拼裝出正確的依存句法樹了。這種拼裝動做稱爲轉移( transition),而這類算法統稱爲基於轉移的依存句法分析。
Arc-Eager 轉移系統
一個轉移系統 S 由 4 個部件構成: S = (C,T,Cs,Ct),其中:
而系統狀態又由 3 元祖構成: C = (σ,β,A) 其中:
Arc-Eager 轉移系統的轉移動做集合詳見下表:
動做名稱 | 條件 | 解釋 |
---|---|---|
Shift | 隊列 β 非空 | 將隊首單詞 i 壓棧 |
LeftArc | 棧頂單詞 i 沒有支配詞 | 將棧頂單詞 i 的支配詞設爲隊首單詞 j,即 i 做爲 j 的子節點 |
RightArc | 隊首單詞 j 沒有支配詞 | 將隊首單詞 j 的支配詞設爲棧頂單詞 i,即 j 做爲 i 的子節點 |
Reduce | 棧頂單詞 i 已有支配詞 | 將棧頂單詞 i 出棧 |
對於上面的「人 吃 魚」案例,Arc-Eager 的執行步驟以下:
裝填編號 | σ | 轉移動做 | β | A |
---|---|---|---|---|
0 | [] | 初始化 | [人,吃,魚,虛根] | {} |
1 | [人] | Shift | [吃,魚,虛根] | {} |
2 | [] | LeftArc(主謂) | [吃,魚,虛根] | \(\{人\xleftarrow{主謂}吃\}\) |
3 | [吃] | Shift | [魚,虛根] | \(\{人\xleftarrow{主謂}吃\}\) |
4 | [吃,魚] | RightArc(動賓) | [虛根] | \(\{人\xleftarrow{主謂}吃,吃\xrightarrow{動賓}魚\}\) |
5 | [吃] | Reduce | [虛根] | \(\{人\xleftarrow{主謂}吃,吃\xrightarrow{動賓}魚\}\) |
6 | [] | LeftArc(核心) | [虛根] | \(\{人\xleftarrow{主謂}吃,吃\xrightarrow{動賓}魚,吃\xleftarrow{核心}虛根\}\) |
此時集合 A 中的依存弧爲一顆依存句法樹。
訓練原理
對基於轉移的依存句法分析器而言,它學習和預測的對象是一系列轉移動做。然而依存句法樹庫是一棵樹,並非現成的轉移動做序列。這時候就須要一個算法將語料庫中的依存句法樹轉移爲正確地轉移動做序列。
這裏可使用感知機進行訓練獲得轉移動做序列,原理詳見:
訓練句法分析器時,結構化感知機算法迭代式的優化線性模型,目標是使其將最高的分值賦予可抵達正確句法樹的轉移序列。
訓練分爲如下幾個步驟:
訓練模型
本節使用的語料庫是 CTB8.0,運行代碼的時候會自動下載語料庫: train_parser.py
https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch12/train_parser.py
訓練時間比較長,結果以下:
1 人 人 N NN _ 2 nsubj _ _ 2 吃 吃 V VV _ 0 ROOT _ _ 3 魚 魚 N NN _ 2 dobj _ _ UAS=83.3% LAS=81.0%
標準化評測
給定兩棵樹,一棵樹爲標準答案(來自測試集),一棵樹爲預測結果,評測的目標是衡量這兩棵樹的差別。若是將樹的節點編號,拆解爲依存弧並分別存入兩個集合 A ( 標準答案)和 B (預測結果),則能夠利用分類任務的 F1 評價指標。
依存句法分析任務採用的評測指標爲 UAS (unlabeled atachment score) 和 LAS (labeled attachment score ),分別對應忽略標籤和包括標籤的 F1 值。以 LAS 爲例,具體計算方式以下:
\[ P=\frac{|A\cap B|}{|B|}\\ R=\frac{|A\cap B|}{|A|}\\ LAS=\frac{2*P*R}{P+R} \]
UAS 的計算也是同理,只不過將每條依存弧上的標籤去掉後放人集合參與運算便可。相較於 LAS, UAS 僅僅衡量支配詞的預測準確率,不衡量依存關係的準確率,通常分數更高。
在上面的訓練模型中已經作了評測
UAS=83.3% LAS=81.0%
這個分數說明,在測試集上有 83% 的支配詞被準確預測,有 81% 的依存弧被準確預測。
其實許多人都有一個疑問,依存句法分析究竟能夠用來幹什麼。本節就來利用依存句法分析實現一個意見抽取的例子,提取下列商品評論中的屬性和買家評價。
電池很是棒,機身不長,長的是待機,可是屏幕分辨率不高。
爲了提取「電池」「機身」「待機」和「分辨率」所對應的意見,樸素的處理方式是在分司和詞性標註以後編寫正則表達式,提取名詞後面的形容詞。然而正則表達式沒法處理「長的是待機」這樣句式靈活的例子。
這時就能夠對這句話進行依存句法分析,分析代碼以下:
from pyhanlp import * CoNLLSentence = JClass('com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLSentence') CoNLLWord = JClass('com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord') IDependencyParser = JClass('com.hankcs.hanlp.dependency.IDependencyParser') KBeamArcEagerDependencyParser = JClass('com.hankcs.hanlp.dependency.perceptron.parser.KBeamArcEagerDependencyParser') parser = KBeamArcEagerDependencyParser() tree = parser.parse("電池很是棒,機身不長,長的是待機,可是屏幕分辨率不高。") print(tree)
運行結果以下:
1 電池 電池 N NN _ 3 nsubj _ _ 2 很是 很是 A AD _ 3 advmod _ _ 3 棒 棒 V VA _ 0 ROOT _ _ 4 , , P PU _ 3 punct _ _ 5 機身 機身 N NN _ 7 nsubj _ _ 6 不 不 A AD _ 7 neg _ _ 7 長 長 V VA _ 3 conj _ _ 8 , , P PU _ 7 punct _ _ 9 長 長 V VA _ 11 top _ _ 10 的 的 D DEC _ 9 cpm _ _ 11 是 是 V VC _ 7 conj _ _ 12 待機 待機 N NN _ 11 attr _ _ 13 , , P PU _ 3 punct _ _ 14 可是 可是 A AD _ 18 advmod _ _ 15 屏幕 屏幕 N NN _ 16 nn _ _ 16 分辨率 分辨率 N NN _ 18 nsubj _ _ 17 不 不 A AD _ 18 neg _ _ 18 高 高 V VA _ 3 conj _ _ 19 。 。 P PU _ 3 punct _ _
進行可視化後:
仔細觀察,不難發現「電池」與「棒」、「機身」與「長」、「分辨率」與「高」之間的依存關係都是 nsubj (名詞性主語)。
利用這一規律, 不難寫出初版遍歷算法, 也就是用個for 循環去遍歷樹中的每一個節點。對於算法遍歷樹中的每個詞語, 若是其詞性爲名詞且做爲某個形容詞的名詞性主語,則認爲該名詞是屬性,而形容詞是意見。運行代碼以下:
def extactOpinion1(tree): for word in tree.iterator(): if word.POSTAG == "NN" and word.DEPREL == "nsubj": print("%s = %s" % (word.LEMMA, word.HEAD.LEMMA)) print("初版") extactOpinion1(tree)
結果以下:
初版 電池 = 棒 機身 = 長 分辨率 = 高
雖然的確提取出了一些意見,然然後兩個都是錯誤的。這一版算法存在的問題之一是沒有考慮到「機身不長」」「分辨率不高"等否認修飾關係。否認修飾關係在依存句法中的標記爲 neg,因而咱們只需檢查形容詞是否存在否認修飾的支配詞便可。因而得出第二版算法:
def extactOpinion2(tree): for word in tree.iterator(): if word.POSTAG == "NN" and word.DEPREL == "nsubj": if tree.findChildren(word.HEAD, "neg").isEmpty(): print("%s = %s" % (word.LEMMA, word.HEAD.LEMMA)) else: print("%s = 不%s" % (word.LEMMA, word.HEAD.LEMMA)) print("第二版") extactOpinion2(tree)
結果以下:
第二版 電池 = 棒 機身 = 不長 分辨率 = 不高
接下來思考如何提取「待機」的意見,「待機」與「長」之間的公共父節點爲「是」,因而咱們獲得第三版算法以下:
def extactOpinion3(tree): for word in tree.iterator(): if word.POSTAG == "NN": # 檢測名詞詞語的依存弧是不是「屬性關係」, # 若是是,則尋找支配詞的子節點中的主題詞 # 以該主題詞做爲名詞的意見。 if word.DEPREL == "nsubj": # ①屬性 if tree.findChildren(word.HEAD, "neg").isEmpty(): print("%s = %s" % (word.LEMMA, word.HEAD.LEMMA)) else: print("%s = 不%s" % (word.LEMMA, word.HEAD.LEMMA)) elif word.DEPREL == "attr": top = tree.findChildren(word.HEAD, "top") # ②主題 if not top.isEmpty(): print("%s = %s" % (word.LEMMA, top.get(0).LEMMA)) print("第三版") extactOpinion3(tree)
結果以下:
第三版 電池 = 棒 機身 = 不長 待機 = 長 分辨率 = 不高
至此,4 個屬性被完整正確地提取出來了,讀者能夠嘗試蒐集更多的句子,經過分析句法結構總結更多的提取規則。
HanLP何晗--《天然語言處理入門》筆記:
https://github.com/NLP-LOVE/Introduction-NLP
項目持續更新中......
目錄
章節 |
---|
第 1 章:新手上路 |
第 2 章:詞典分詞 |
第 3 章:二元語法與中文分詞 |
第 4 章:隱馬爾可夫模型與序列標註 |
第 5 章:感知機分類與序列標註 |
第 6 章:條件隨機場與序列標註 |
第 7 章:詞性標註 |
第 8 章:命名實體識別 |
第 9 章:信息抽取 |
第 10 章:文本聚類 |
第 11 章:文本分類 |
第 12 章:依存句法分析 |
第 13 章:深度學習與天然語言處理 |