NLPIR文本智能分詞是語義挖掘的關鍵

  詞法分析是天然語言處理的基礎與關鍵。在中文天然語言處理中,詞是最小的可以獨立活動的有意義的語言成分。漢語是以字爲基本書寫單位,詞語之間沒有明顯的區分標記,所以進行中文天然語言處理一般是先將漢語文本中的字符串切分紅合理的詞語序列,而後再在此基礎上進行其它分析處理。中文分詞是中文信息處理的一個基礎環節,已被普遍應用於中文文本處理、信息提取、文本挖掘等應用中。算法

  一個天然語言處理系統必須考慮許多語言自身與結構方面的知識——如什麼是詞、詞如何組成句子、詞的意義是什麼、詞的意義對句子意義有什麼貢獻等,但這些卻仍是遠遠不夠的。好比一個系統若是要回答提問或者直接參與對話,它不只須要知道不少語言結構的知識,並且還要知道人類世界的通常性知識並具有人類的推理能力。所以許多語言學家一般把對語言的分析和理解分紅以下幾個主要層次:詞法分析、句法分析、語義分析、篇章分析。測試

  首先,詞法分析——主要包括分詞、詞性標註、詞義消歧、新詞識別等——是經過分詞、詞頻和位置統計等手段得到相關語言信息。編碼

  其次,句法分析經過使句子成分特徵化來分析句子結構特徵,經過對句子和短語結構的分析找出詞、短語等的相互關係以及各自在句中的做用,並以必定結構來表達諸如從屬關係、成分關係等,目的是斷定句子中各類結構性成分。spa

  第三,爲了理解一個提問,通常還須要更多的語義和語用知識來幫助理解句子的意思,經過分析找出詞義、結構意義及其結合意義,從而肯定句子所表達的真正含義,而語義信息的標記須要包含概念徹底集與關係圖的支持,須要對句法成分作出細緻的語義分類,它通常應包括語言層面(即反映語言表面現象的知識,如同義詞關係、層次關係等)、本體論層面(描述概念之間複雜的語義關係)、常識層面等。雖然這項工做浩繁,但目前已經取得了一些初步成果。操作系統

  最後,篇章分析用於對多個語句、段落之間在結構或者語義上的相互關係進行分析。blog

  NLPIR分詞系統是通過多年研究工做積累,主要功能包括中文分詞;英文分詞;詞性標註;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業詞典與微博分析。NLPIR系統支持多種編碼(GBK編碼、UTF8編碼、BIG5編碼)、多種操做系統、多種開發語言與平臺。開發

  NLPIR/ICTCLAS2018分詞系統主要功能介紹字符串

  1)中英文混合分詞功能微博

  自動對中文英文信息進行分詞與詞性標註功能,涵蓋了中文分詞、英文分詞、詞性標註、未登陸詞識別與用戶詞典等功能。class

  2)關鍵詞提取功能

  採用交叉信息熵的算法自動計算關鍵詞,包括新詞與已知詞,

  3)新詞識別與自適應分詞功能

  從較長的文本內容中,基於信息交叉熵自動發現新特徵語言,並自適應測試語料的語言機率分佈模型,實現自適應分詞。

  4)用戶專業詞典功能

  能夠單條導入用戶詞典,也能夠批量導入用戶詞典。如能夠定「舉報信 敏感點」,其中舉報信是用戶詞,敏感點是用戶自定義的詞性標記。

ICTCLAS分詞法利用詞典匹配進行初切分獲得一個切分詞圖,而後利用詞頻信息求詞圖N條最短路徑的N-最短路徑法。還有些研究者利用詞典找出全部的交叉歧義,而後利用Bigram語言模型或其變形來消除歧義。

相關文章
相關標籤/搜索