語言是由語音形式、語義內容、結構關係三個方面構成的統一體,三個方面缺一不可,互相做用,構成了語言。語音是語言的形式部分,詞彙是語言的意義部分,語法是語言單位的關係部分,說的是符號與符號怎樣組合的問題。三個部分在語言中的做用,咱們能夠這樣簡單來表述:沒有語音形式,語言就沒法存在,沒有詞彙的內容意義,語言就是一個 毫無做用的空殼,沒有語法,語言就是一盤雜亂而毫無章法的散沙。
中文信息處理分爲漢字信息處理與漢語信息處理兩部分,具體內容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。用計算機來處理漢語信息,就是漢語信息處理,又稱中文信息處理。
進入21世紀,面對網絡時代信息的爆炸式增加,中文信息處理做爲一項基礎性、普適特性的信息技術,面臨着挑戰和再次發展的機遇,在互聯網時代則顯示出其優點。它的開發利用關係到我國從此信息產業乃至社會經濟的發展和信息安全,具備巨大的經濟價值和社會價值。
中文信息處理技術自動化水平的提升,將大大促進我國科技、國民經濟和社會發展,同時使中華民族的文化在信息時代獲得新的發展。將來無疑應當增強中文信息處理技術的研發投入與政策傾斜。我國的中文信息處理技術還有自身一系列急需解決的基礎研究和應用技術問題。這些問題若是從如今起還得不到切實的增強,咱們在中文信息處理事業中僅有的一些優點,就要迅速失去,那將給我國形成極大的損失。
目前中文信息處理能力與國際上先進水平差距還很大。例如:自動分詞和詞性標註,至今還未開發出一個像日語分詞系統那樣被廣爲接受的分詞標註系統。從採用的方法能夠看出,隨着研究的不斷深刻,基於統計的方法已逐漸暴露自身的缺陷,統計方法不可能解決全部的問題,仍是須要結合基於規則的方法,才能在精度上得以突破;
中文信息處理句法分析和語義分析問題;中文信息處理應用研究的問題,好比信息輸入中的鍵盤輸入和漢字識別發展已經成熟,但語音識別卻很實現,困難是要適應不一樣人之間的語音變化以及外界的噪音干擾;中文信息處理研究分散並且存在着低層次重複、缺少統一規範和標準的問題;現代漢語研究領域和計算機領域的隔絕狀態沒有出現根本性改變;漢語文和少數民族語言文字的信息處理技術與國際水平相比,還有至關大的差距。特別是自主知識產權的成果還很少;語言資源和成果的共享還有很大侷限,網絡上對公衆開放的中國語言文字資源還不多,遠不能知足我國國民經濟發展和信息化事業對中文信息處理技術的要求等等。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是知足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、天然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有精準採集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能模塊,平臺提供了客戶端工具,雲服務與二次開發接口等多種產品使用形式。各個中間件API能夠無縫地融合到客戶的各種複雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不一樣操做系統平臺,能夠供Java,Python,C,C#等各種開發語言使用。
隨着信息技術在我國社會生活各個領域應用的深刻,中文信息處理正在成爲人們工做和生活中不可或缺的手段,中文信息處理將具備更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實時機器翻譯、大規模中文文本處理、跨平臺中西文自動識別轉換、泛中文語義理解、中文電子商務等技術實現重大突破。中文信息處理已成爲我國信息技術研究、發展、應用和產業的基礎,在互聯網日益成長的今天,中文信息處理技術將會更加成熟並創新。安全