隨着信息技術的不斷髮展,互聯網上的信息也在急劇膨脹,在這海量的信息中,各種信息混雜在一塊兒,要想充分利用這些信息資源就要對它們進行整理,若是由人來作這項工做,已是不可能的,而若是面對中文信息不採用分詞技術,那麼整理的結果就過於粗糙,而致使資源的不能充分利用。經過引入分詞技術,就可使機器對海量信息的整理更準確更合理,使得檢索結果更準確,效率也會大幅度的提升。
漢語的中文信息處理就是要「用計算機對漢語的音、形、義進行處理。」咱們還知道,「詞是最小的可以獨立活動的有意義的語言成分。」計算機的全部語言知識都來自機器詞典(給出詞的各項信息)、句法規則(以詞類的各類組合方式來描述詞的聚合現象)以及有關詞和句子的語義、語境、語用知識庫。分詞是漢語天然語言處理的第一步。目前,漢語天然語言處理的應用系統處理對象愈來愈多的是大規模語料,所以分詞的速度和分詞算法的易實現性變得至關關鍵。
但因爲中文詞與詞之間不象西文那樣有明顯的分隔符,因此構成了中文在自動切分上的極大困難。在現有的中文自動分詞方法中,基於詞典的分詞方法佔有主導地位。而中文分詞的主要困難不在於詞典中詞條的匹配,而是在於切分歧義消解和未登陸詞語的識別。在中文分詞過程當中,這兩大難題一直沒有徹底突破。
一、歧義處理
歧義是指一樣的一句話,可能有兩種或者更多的切分方法。目前主要分爲交集型歧義、組合型歧義和真歧義三種。其中交集型歧義字段數量龐大,處理方法多樣;組合型歧義字段數量較少,處理起來相對較難;而真歧義字段數量更爲稀少,且很難處理。 分詞歧義處理之因此是中文分詞的困難之一,緣由在於歧義分爲多種類型,針對不一樣的歧義類型應採起不一樣的解決方法。除了須要依靠上、下文語義信息;增長語義、語用知識等外部條件外,還存在難以消解的真歧義,增長了歧義切分的難度。同時未登陸詞中也存在着歧義切分的問題,這也增長了歧義切分的難度。因此歧義處理是影響分詞系統切分精度的重要因素,是自動分詞系統設計中的一個最困難也是最核心的問題。
二、未登陸詞識別
新詞,專業術語稱爲未登陸詞。也就是那些在字典中都沒有收錄過詞。未登陸詞能夠分爲專名和非專名兩大類。其中專名包括中國人名、外國譯名、地名等,而非專名包括新詞、簡稱、方言詞語、文言詞語、行業用詞等。 不管是專名仍是非專名的未登陸詞都很難處理,由於其數量龐大,又沒有相應的規範,並且隨着社會生活的變遷,使未登陸詞的數量大大增長,這又爲未登陸詞的識別增長了難度。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是知足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、天然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有精準採集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能模塊,平臺提供了客戶端工具,雲服務與二次開發接口等多種產品使用形式。各個中間件API能夠無縫地融合到客戶的各種複雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不一樣操做系統平臺,能夠供Java,Python,C,C#等各種開發語言使用。
中文分詞技術應時代的要求應運而生,在很大程度上知足了人們對天然語言處理的須要,解決了人和計算機交流中的一些障礙;但中文分詞技術也存在不少困難,咱們相信在將來的幾年裏,經過對中文分詞技術的深刻研究,必將開發出高質量、多功能的中文分詞算法並促進天然語言理解系統的普遍應用。算法