在中文信息處理和理解系統中,「詞處理」是一個基礎環節。所謂「詞處理」,是指在連續的漢字字符串中識別詞語, 並獲取這些詞語的語言學信息和統計學信息,譬如:語法屬性、語 義屬性、用法信息等,這些信息是系統下一步分析和理解語句的必要基礎。咱們把計算機獲取這些必要的信息稱爲對詞語的理解。這樣,「詞處理」的任務就是識別和理解語句中的詞語。網絡
中文信息處理分爲漢字信息處理與漢語信息處理兩部分,具體內容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。用計算機來處理漢語信息,就是漢語信息處理,又稱中文信息處理。中文信息處理包括「字處理」、「詞處理」和「句處理」。工具
「字處理」、「詞處理」分別與漢字和詞彙有關。句處理的主要內容是,怎樣使計算機理解天然語言(如現代漢語)的句子的意思,又怎樣使計算機生成符合天然語言規則的句子。「句處理」所須要的語言知識,將是一種涉及到語音、語義、語法、語用等諸方面的綜合性知識。目前。你們都深感現有的關於漢語的知識遠遠不能知足中文句處理的須要。單就句法方面的狀況說。在中文信息處理過程當中將會不斷遇到咱們想象不到的問題,許多問題在人看來仍是比較容易解決的,但計算機解決就比較困難了。大數據
一、首先,就切分而言,中文本來沒有詞的概念,沒有一個統一的詞的確切定義。中文構詞方法的多樣性特色使得分詞十分困難。漢字造詞能夠是字,也能夠是詞甚至詞組。造句的方式有以字造詞,以詞造詞。若是沒有語法、語義知識或語境瞭解的幫助就很難對有些句子進行正確切分。搜索引擎
2.其次,漢語迄今爲止仍未有一部公認的、確切完備的並適合於計算機處理的語法規則。漢語詞法的無標準性,句法的複雜性,語法的模糊性與語義的多樣性,如漢語中大量存在一詞多義,多詞一義,詞性變化,詞義轉借等現象,使得研究中文信息處理的學者至今仍難以對它進行完備的總結。這也爲漢語分詞製造了困難。編碼
3.再次,現有的分詞方法基本上都是基於統計和詞典的分詞方法,它們都必須在分詞速度和精度之間作出選擇。要提升速度,就要適當放棄精度的追求,縮減詞典,減小匹配次數。而要提升切分精度,就得捨棄速度,無限擴充詞典,匹配次數也會無限增長。所以,切分效率不高也是一大問題。spa
4.最後,基於統計的分詞方法雖然可以有效地自動排除歧義,但也不能百分百的消除歧義。由於漢語因爲構詞語素大可能是不定位語素,又有至關數量的自由語素,漢語詞理解的多義性、複雜性, 再加上詞與詞之間沒有空格隔開,沒有任何區分標誌,這就形成了切分中的多分字段,於是歧義現象是分詞過程當中不可避免的現象。操作系統
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是知足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、天然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。翻譯
NLPIR大數據語義智能分析平臺主要有精準採集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能模塊,平臺提供了客戶端工具,雲服務與二次開發接口等多種產品使用形式。各個中間件API能夠無縫地融合到客戶的各種複雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不一樣操做系統平臺,能夠供Java,Python,C,C#等各種開發語言使用。中間件
隨着信息技術在我國社會生活各個領域應用的深刻,中文信息處理正在成爲人們工做和生活中不可或缺的手段,中文信息處理將具備更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實時機器翻譯、大規模中文文本處理、跨平臺中西文自動識別轉換、泛中文語義理解、中文電子商務等技術實現重大突破。中文信息處理已成爲我國信息技術研究、發展、應用和產業的基礎,在互聯網日益成長的今天,中文信息處理技術將會更加成熟並創新。索引