哈工大語言技術平臺Language Technology Platform(LTP)是哈工大社會計算與信息檢索研究中心歷時十年開發的一整套中文語言處理系統。LTP制定了基於XML的語言處理結果表示,並在此基礎上提供了一整套自底向上的豐富並且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術),以及基於動態連接庫(Dynamic Link Library, DLL)的應用程序接口,可視化工具,而且可以以網絡服務(Web Service)的形式進行使用html
中文分詞 (Word Segmentation, WS) 指的是將漢字序列切分紅詞序列。 由於在漢語中,詞是承載語義的最基本的單元。分詞是信息檢索、文本分類、情感分析等多項中文天然語言處理任務的基礎。網絡
詞性標註(Part-of-speech Tagging, POS)是給句子中每一個詞一個詞性類別的任務。 這裏的詞性類別多是名詞、動詞、形容詞或其餘。 下面的句子是一個詞性標註的例子。 其中,v表明動詞、n表明名詞、c表明連詞、d表明副詞、wp表明標點符號。工具
Tag | Description | Example |
---|---|---|
a | adjective | 美麗 |
c | conjunction | 和, 雖然 |
d | adverb | 很 |
e | exclamation | 哎 |
h | prefix | 阿, 僞 |
i | idiom | 百花齊放 |
j | abbreviation | 公檢法 |
m | number | 一, 第一 |
n | general noun | 蘋果 |
nd | direction noun | 右側 |
nh | person name | 杜甫, 湯姆 |
ni | organization name | 保險公司 |
nl | location noun | 城郊 |
ns | geographical name | 北京 |
nt | temporal noun | 近日, 明代 |
nz | other proper noun | 諾貝爾獎 |
p | preposition | 在, 把 |
q | quantity | 個 |
u | auxiliary | 的, 地 |
v | verb | 跑, 學習 |
wp | punctuation | ,。 |
ws | foreign words | CPU |
命名實體識別 (Named Entity Recognition, NER) 是在句子的詞序列中定位並識別人名、地名、機構名等實體的任務。post
依存語法 (Dependency Parsing, DP) 經過分析語言單位內成分之間的依存關係揭示其句法結構。 直觀來說,依存句法分析識別句子中的「主謂賓」、「定狀補」這些語法成分,並分析各成分之間的關係。學習
關係類型 | Tag | Description | Example |
---|---|---|---|
主謂關係 | SBV | subject-verb | 我送她一束花 (我 <-- 送) |
動賓關係 | VOB | 直接賓語,verb-object | 我送她一束花 (送 --> 花) |
間賓關係 | IOB | 間接賓語,indirect-object | 我送她一束花 (送 --> 她) |
前置賓語 | FOB | 前置賓語,fronting-object | 他什麼書都讀 (書 <-- 讀) |
兼語 | DBL | double | 他請我吃飯 (請 --> 我) |
定中關係 | ATT | attribute | 紅蘋果 (紅 <-- 蘋果) |
狀中結構 | ADV | adverbial | 很是美麗 (很是 <-- 美麗) |
動補結構 | CMP | complement | 作完了做業 (作 --> 完) |
並列關係 | COO | coordinate | 大山和大海 (大山 --> 大海) |
介賓關係 | POB | preposition-object | 在貿易區內 (在 --> 內) |
左附加關係 | LAD | left adjunct | 大山和大海 (和 <-- 大海) |
右附加關係 | RAD | right adjunct | 孩子們 (孩子 --> 們) |
獨立結構 | IS | independent structure | 兩個單句在結構上彼此獨立 |
核心關係 | HED | head | 指整個句子的核心 |
語義角色標註 (Semantic Role Labeling, SRL) 是一種淺層的語義分析技術,標註句子中某些短語爲給定謂詞的論元 (語義角色) ,如施事、受事、時間和地點等。其可以對問答系統、信息抽取和機器翻譯等應用產生推進做用。翻譯
咱們有了以上的一些基礎工具以後,能夠對無監督的文本進行一個三元組關係的抽取。三元組是組成知識圖譜的最重要的單元。orm