3. 哈工大LTP解析

1. 通俗易懂解釋知識圖譜(Knowledge Graph)

2. 知識圖譜-命名實體識別(NER)詳解

3. 哈工大LTP解析

1. 前言

哈工大語言技術平臺Language Technology Platform(LTP)是哈工大社會計算與信息檢索研究中心歷時十年開發的一整套中文語言處理系統。LTP制定了基於XML的語言處理結果表示,並在此基礎上提供了一整套自底向上的豐富並且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術),以及基於動態連接庫(Dynamic Link Library, DLL)的應用程序接口,可視化工具,而且可以以網絡服務(Web Service)的形式進行使用html

2. 分詞(Segmentor)

中文分詞 (Word Segmentation, WS) 指的是將漢字序列切分紅詞序列。 由於在漢語中,詞是承載語義的最基本的單元。分詞是信息檢索、文本分類、情感分析等多項中文天然語言處理任務的基礎。網絡

3. 詞性標註(Postagger)

詞性標註(Part-of-speech Tagging, POS)是給句子中每一個詞一個詞性類別的任務。 這裏的詞性類別多是名詞、動詞、形容詞或其餘。 下面的句子是一個詞性標註的例子。 其中,v表明動詞、n表明名詞、c表明連詞、d表明副詞、wp表明標點符號。工具

Tag Description Example
a adjective 美麗
c conjunction 和, 雖然
d adverb
e exclamation
h prefix 阿, 僞
i idiom 百花齊放
j abbreviation 公檢法
m number 一, 第一
n general noun 蘋果
nd direction noun 右側
nh person name 杜甫, 湯姆
ni organization name 保險公司
nl location noun 城郊
ns geographical name 北京
nt temporal noun 近日, 明代
nz other proper noun 諾貝爾獎
p preposition 在, 把
q quantity
u auxiliary 的, 地
v verb 跑, 學習
wp punctuation ,。
ws foreign words CPU

4. 命名實體識別(NER)

命名實體識別 (Named Entity Recognition, NER) 是在句子的詞序列中定位並識別人名、地名、機構名等實體的任務。post

5. 依存句法分析(Parser)

依存語法 (Dependency Parsing, DP) 經過分析語言單位內成分之間的依存關係揭示其句法結構。 直觀來說,依存句法分析識別句子中的「主謂賓」、「定狀補」這些語法成分,並分析各成分之間的關係。學習

關係類型 Tag Description Example
主謂關係 SBV subject-verb 我送她一束花 (我 <-- 送)
動賓關係 VOB 直接賓語,verb-object 我送她一束花 (送 --> 花)
間賓關係 IOB 間接賓語,indirect-object 我送她一束花 (送 --> 她)
前置賓語 FOB 前置賓語,fronting-object 他什麼書都讀 (書 <-- 讀)
兼語 DBL double 他請我吃飯 (請 --> 我)
定中關係 ATT attribute 紅蘋果 (紅 <-- 蘋果)
狀中結構 ADV adverbial 很是美麗 (很是 <-- 美麗)
動補結構 CMP complement 作完了做業 (作 --> 完)
並列關係 COO coordinate 大山和大海 (大山 --> 大海)
介賓關係 POB preposition-object 在貿易區內 (在 --> 內)
左附加關係 LAD left adjunct 大山和大海 (和 <-- 大海)
右附加關係 RAD right adjunct 孩子們 (孩子 --> 們)
獨立結構 IS independent structure 兩個單句在結構上彼此獨立
核心關係 HED head 指整個句子的核心

6. 語義角色標註(SementicRoleLabeller)

語義角色標註 (Semantic Role Labeling, SRL) 是一種淺層的語義分析技術,標註句子中某些短語爲給定謂詞的論元 (語義角色) ,如施事、受事、時間和地點等。其可以對問答系統、信息抽取和機器翻譯等應用產生推進做用。翻譯

7. 總結

咱們有了以上的一些基礎工具以後,能夠對無監督的文本進行一個三元組關係的抽取。三元組是組成知識圖譜的最重要的單元。orm

相關文章
相關標籤/搜索