依存句法分析器的簡單實現

時間 2019-11-10

標籤依存句法分析器簡單實現简体版

原文原文鏈接

生成式句法分析指的是，生成一系列依存句法樹，從它們中用特定算法挑出機率最大那一棵。句法分析中，生成模型的構建主要使用三類信息：詞性信息、詞彙信息和結構信息。前二類很好理解，而結構信息須要特殊語法標記，不作考慮。算法

本文主要利用了詞彙+詞性生成聯合機率模型，使用最大生成樹Prim算法搜索最終結果，獲得了一個簡單的漢語依存句法分析器。網絡

開源項目工具

本文代碼已集成到HanLP中開源：http://hanlp.dksou.com/測試

基本思路spa

統計詞語WordA與詞語WordB構成依存關係DrC的頻次，詞語WordA與詞性TagB構成依存關係DrD的頻次，詞性TagA與詞語WordB構成依存關係DrE的頻次，詞性TagA與詞詞性TagB構成依存關係DrF的頻次。爲句子中詞語i與詞語j生成多條依存句法邊，其權值爲上述四種頻次的綜合（主要利用詞-詞頻次，其他的做平滑處理用）。取邊的權值最大的做爲惟一的邊，加入有向圖中。3d

在有向圖上使用Prim最大生成樹算法，計算出最大生成樹，格式化輸出。blog

模型訓練博客

簡單地統計一下清華大學語義依存網絡語料，獲得以下結果：可視化

@符號鏈接起兩個詞彙或詞性，用<>括起來的表示詞性，不然是詞彙。若是@後面沒有內容，則表示頻次，不然表示一些依存關係與其出現的頻次。搜索

依存句法分析

分詞標註

以「我吃米飯」爲例，先進行分詞與詞性標註，結果：

生成有向圖

因爲依存句法樹中有虛根的存在，因此爲其加入一個虛節點，這樣一共有四個節點：

每一個節點都與另外三個構成一條有向邊，一共4 * 3 = 12 條：

##核心##/root 到我/rr : 未知 10000.0
##核心##/root 到吃/v : 未知 10000.0
##核心##/root 到米飯/n : 未知 10000.0
我/rr 到 ##核心##/root : 核心成分 6.410175
我/rr 到吃/v : 施事 21.061098 經驗者 28.54827 目標 33.656525 受事 37.021248 限定 43.307335 相伴體 48.00737 關係主體 53.115623 內容 53.115623 來源 64.101746
我/rr 到米飯/n : 限定 22.2052 施事 48.00737 受事 57.170277 目標 57.170277 經驗者 64.101746 鏈接依存 64.101746
吃/v 到 ##核心##/root : 核心成分 1.7917595
吃/v 到我/rr : 鏈接依存 96.688614 介詞依存 107.67474 施事 107.67474
吃/v 到米飯/n : 限定 24.849068
米飯/n 到 ##核心##/root : 核心成分 37.077995
米飯/n 到我/rr : 鏈接依存 113.2556
米飯/n 到吃/v : 受事 0.6931472

其中「未知」表示邊不存在，「受事」「施事」表示依存關係，後面的小數表示權值。我對機率取了負對數，因此接下來用加法求最小生成樹便可。

最小生成樹

關於最小生成樹的Prim算法請參考《最小生成樹算法初步》，這裏必須有所改動，因爲虛根有且只能有一個孩子，因此虛根必須單獨計算：

而後就是中規中矩的Prim算法：

得出最小生成樹：

格式化輸出

將其轉爲CoNLL格式輸出：

可視化

使用可視化工具展示出來：

結果評測

我沒有進行嚴格的測試，這只是一個玩具級別的漢語依存句法分析器。先來看幾個good case與bad case——

效果比較馬虎，爲什麼這麼說，這是由於分詞的訓練語料和句法分析語料不一樣，且我自知此方法嚴重依賴詞彙共現，主要是這種二元詞彙生成模型沒法充分利用上下文。

短一點的搜索語句可能仍是有微量的利用價值。

TODO

應當採用判別式模型，導入SVM或最大熵做爲權值的計算工具，而後使用最大生成樹算法獲取全局最優解。

文章轉載自hankcs 的博客

相關文章

相關標籤/搜索

RXJava的簡單實現

最簡單的實現

瀏覽器信息

紅包項目實戰

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<