伴隨着計算機的日益普及,互聯網的迅猛發展,文本的數量(電子郵件、新聞、網頁、科技論文等)在不停的增加,於是對文本做智能化處理以獲取所需信息的需求日益迫切。在這樣的社會需求下,天然語言處理技術的地位和做用日益重要。通過幾十年的研究,計算機 處理天然語言的理論基礎日趨成熟,應用範圍也愈來愈廣,初步造成了面向各類不一樣應用和研究的技術體系。分詞做爲天然語言處理的第 一個步驟,是其餘高層應用的基礎,起着極其重要的做用。
中文分詞不只是各類中文信息處理技術中使用最普遍的手段,也是信息檢索和搜索引擎必不可少的基礎性工做。現有的中文分詞方法有不少,它們以字符串匹配、統計模型、理解、路徑以及語義等爲基礎,並輔以分詞詞典和規則庫,可以在必定程度上對中文信息進行切分。但因爲漢語自己的特殊性和複雜性,目前的中文分詞技術廣泛存在歧義詞處理和未登陸詞(新詞)識別兩個難點。所以,一個好的中文分詞方法不只須要具有高效的分詞算法和詞典機制,並且要準確識別歧義詞和未登陸詞。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是知足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、天然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺十三大功能:
精準採集:對境內外互聯網海量信息實時精準採集,有主題採集(按照信息需求的主題採集)與站點採集兩種模式(給定網址列表的站內定點採集功能)。
文檔轉化:對doc、excel、pdf與ppt等多種主流文檔格式,進行文本信息轉化,效率達到大數據處理的要求。
新詞發現:從文本中挖掘出新詞、新概念,用戶能夠用於專業詞典的編撰,還能夠進一步編輯標註,導入分詞詞典中,提升分詞系統的準確度,並適應新的語言變化。
批量分詞:對原始語料進行分詞,自動識別人名地名機構名等未登陸詞,新詞標註以及詞性標註。並可在分析過程當中,導入用戶定義的詞典。
語言統計:針對切分標註結果,系統能夠自動地進行一元詞頻統計、二元詞語轉移機率統計。針對經常使用的術語,會自動給出相應的英文解釋。
文本聚類:可以從大規模數據中自動分析出熱點事件,並提供事件話題的關鍵特徵描述。同時適用於長文本和短信、微博等短文本的熱點分析。
文本分類:根據規則或訓練的方法對大量文本進行分類,可用於新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面。
摘要實體:對單篇或多篇文章,自動提煉出內容摘要,抽取人名、地名、機構名、時間及主題關鍵詞;方便用戶快速瀏覽文本內容。
智能過濾:對文本內容的語義智能過濾審查,內置國內最全詞庫,智能識別多種變種:形變、音變、繁簡等多種變形,語義精準排歧。
情感分析:針對事先指定的分析對象,系統自動分析海量文檔的情感傾向:情感極性及情感值測量,並在原文中給出正負面的得分和句子樣例。
文檔去重:快速準確地判斷文件集合或數據庫中是否存在相同或類似內容的記錄,同時找出全部的重複記錄。
全文檢索:支持文本、數字、日期、字符串等各類數據類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。
編碼轉換:自動識別內容的編碼,並把編碼統一轉換爲其餘編碼。
大數據挖掘已成爲大數據技術最重要的應用,它從大數據中提取、挖掘對業務發展有價值的、潛在的知識,找出趨勢,爲決策層提供有力依據,對產品或服務發展方向起到積極做用,將有力推進企業內部的科學化、信息化管理。在信息管理領域,綜合應用數據分析技術和人工智能技術,獲取用戶知識、文獻知識等各種知識,將是實現知識檢索和知識管理髮展的必經之路。算法