詞性標註簡介

太亂了,之後再整理 關於詞性算法

詞性(part-of-speech)是詞彙基本的語法屬性,一般也稱爲詞性。
詞性標註(part-of-speech tagging),又稱爲詞類標註或者簡稱標註,是指爲分詞結果中的每一個單詞標註一個正確的詞性的程序,也即肯定每一個詞是名詞、動詞、形容詞或者其餘詞性的過程。
詞性標註是不少NLP任務的預處理步驟,如句法分析,通過詞性標註後的文本會帶來很大的便利性,但也不是不可或缺的步驟。能夠用在句法分析預處理,命名實體識別,信息抽取等。
而且不一樣的工具備本身的詞性體系。並不惟一。

抄百度百科:網絡

詞性標註(Part-Of-Speech tagging, POS tagging)也被稱爲語法標註(grammatical tagging)或詞類消疑(word-category disambiguation),是語料庫語言學(corpus linguistics)中將語料庫內單詞的詞性按其含義和上下文內容進行標記的文本數據處理技術 。
詞性標註能夠由人工或特定算法完成,使用機器學習(machine learning)方法實現詞性標註是天然語言處理(Natural Language Processing, NLP)的研究內容。詞性標註的機器學習算法主要爲序列模型,包括HMM、最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM)、條件隨機場(Conditional random fields,CRFs)等廣義上的馬爾可夫模型成員,以及以循環神經網絡(Recurrent Neural Network, RNN)爲表明的深度學習算法。此外,一些機器學習的常規分類器,例如支持向量機(Support Vector Machine, SVM)在改進後也可用於詞性標註 。
詞性標註主要被應用於文本挖掘(text mining)和NLP領域,是各種基於文本的機器學習任務,例如語義分析(sentiment analysis)和指代消解(coreference resolution)的預處理步驟。

詞性標註算法dom

詞性標註基本能夠利用分詞的方法(匹配and機率統計),中文多數詞語只有一個詞性,或者出現頻次最高的詞性遠遠高於第二位的詞性。聽說單純選取最高頻詞性,就能實現80%準確率的中文詞性標註程序。
基於字符串匹配的字典查找算法:
	先對語句進行分詞,而後從字典中查找每一個詞語的詞性,對其進行標註便可。jieba詞性標註中,對於識別出來的詞語,就是採用了這種方法。這種方法比較簡單,通俗易懂,可是不能解決一詞多詞性的問題,所以存在必定的偏差。
基於統計的詞性標註算法:
	和分詞同樣,經過HMM隱馬爾科夫模型來進行詞性標註。觀測序列即爲分詞後的語句,隱藏序列即爲通過標註後的詞性標註序列。起始機率 發射機率和轉移機率和分詞中的含義大同小異,能夠經過大規模語料統計獲得。觀測序列到隱藏序列的計算能夠經過viterbi算法,利用統計獲得的起始機率 發射機率和轉移機率來獲得。獲得隱藏序列後,就完成了詞性標註過程。
(1)基於最大熵的詞性標註
(2)基於統計最大機率輸出詞性
(3)基於HMM的詞性標註

難點:機器學習

相對於英文,中文沒有詞形變化,不能從詞形來識別詞性。
一詞多詞性很常見。統計發現,一詞多詞性的機率高達22.5%。並且越經常使用的詞,多詞性現象越嚴重。好比「研究」既能夠是名詞(「基礎性研究」),也能夠是動詞(「研究計算機科學」)。
詞性劃分標準不統一。目前尚未一個普遍承認的統一的標準。好比LDC標註語料中,將漢語一級詞性劃分爲33類,而北京大學語料庫則將其劃分爲26類。詞類劃分標準和標記符號的不統一,以及分詞規範的含糊,都給詞性標註帶來了很大的困難。jieba分詞采用了使用較爲普遍的ICTCLAS 漢語詞性標註集規範。
未登陸詞問題。未登陸詞的詞性也是一個比較大的課題。未登陸詞不能經過查找字典的方式獲取詞性,能夠採用HMM隱馬爾科夫模型等基於統計的算法。

jieba分詞就綜合了兩種算法,對於分詞後識別出來的詞語,直接從字典中查找其詞性。而對於未登陸詞,則採用HMM隱馬爾科夫模型和viterbi算法來識別。工具

相關文章
相關標籤/搜索