中文依存句法分析概述及應用

句法分析是天然語言處理領域的一個關鍵問題,如能將其有效解決,一方面,可對相應樹庫構建體系的正確性和完善性進行驗證;另外一方面,也可直接服務於各類上層應用,好比搜索引擎用戶日誌分析和關鍵詞識別,好比信息抽取、自動問答、機器翻譯等其餘天然語言處理相關的任務。app

短語結構和依存結構是目前句法分析中研究最普遍的兩類文法體系。這裏先大概介紹下依存結構。搜索引擎

依存文法最先由法國語言學家L.Tesniere在其著做《結構句法基礎》(1959年)中提出,對語言學的發展產生了深遠的影響,特別是在計算語言學界備受推崇。

依存語法經過分析語言單位內成分之間的依存關係揭示其句法結構,主張句子中核心動詞是支配其它成分的中心成分,而它自己卻不受其它任何成分的支配,全部受支配成分都以某種依存關係從屬於支配者。

在20世紀70年代,Robinson提出依存語法中關於依存關係的四條公理,在處理中文信息的研究中,中國學者提出了依存關係的第五條公理,以下:

一、一個句子中只有一個成分是獨立的;
二、其它成分直接依存於某一成分;
三、任何一個成分都不能依存與兩個或兩個以上的成分;
四、若是A成分直接依存於B成分,而C成分在句中位於A和B之間,那麼C或者直接依存於B,或者直接依存於A和B之間的某一成分;
五、中心成分左右兩面的其它成分相互不發生關係。
翻譯



句子成分間相互支配與被支配、依存與被依存的現象廣泛存在於漢語的詞彙(合成語)、短語、單句、複合直到句羣的各級可以獨立運用的語言單位之中,這一特色爲依存關係的廣泛性,依存句法分析能夠反映出句子各成分之間的語義修飾關係,它能夠得到長距離的搭配信息,並與句子成分的物理位置無關。

附:LTP依存分析模塊所使用的依存關係標記含義 (http://ir.hit.edu.cn/demo/ltp)
依存關係標記(共24個)
定中關係ATT(attribute)
數量關係QUN(quantity)
並列關係COO(coordinate)
同位關係APP(appositive)
前附加關係LAD(left adjunct)
後附加關係RAD(right adjunct)
動賓關係VOB(verb-object)
介賓關係POB(preposition-object)
主謂關係SBV(subject-verb)
比擬關係SIM(similarity)
核心HED(head)
連動結構VV(verb-verb)
關聯結構CNJ(conjunctive)
語態結構MT(mood-tense)
獨立結構IS(independent structure)
狀中結構ADV(adverbial)
動補結構CMP(complement)
「的」字結構DE
「地」字結構DI
「得」字結構DEI
「把」字結構BA
「被」字結構BEI
獨立分句IC(independent clause)
依存分句DC(dependent clause)日誌

關於中文句法分析的應用,工業界我知道的百度和雅虎都有嘗試,索引

百度的query分析,雅虎利用句法信息作多粒度切詞等等。get

相關文章
相關標籤/搜索