NLPIR大數據語義系統助中文處理行業深度應用

  進入21世紀,面對網絡時代信息的爆炸式增加,中文信息處理做爲一項基礎性、普適特性的信息技術,面臨着挑戰和再次發展的機遇,在互聯網時代則顯示出其優點。它的開發利用關係到我國從此信息產業乃至社會經濟的發展和安全,具備巨大的經濟價值和社會價值。安全

  中文信息處理是中文(包括漢語和少數民族語言)語言學和信息技術的融合,它是一門用計算機對漢語(包括口語和書面語)進行轉換、傳輸、存貯、分析等加工的科學。中文信息處理與語言學、計算機科學、心理學、數學、控制論、信息論、聲學、自動化技術等多種學科相聯繫,是天然語言信息處理的一個分支,須要以大量的語言知識、背景知識爲依據,對中文信息的人腦處理過程進行模擬。其中,「中文」是指中國通用的全部語言種類,包括漢語及其餘少數民族的語言:但通常都是指漢語。「信息」是指能經過視覺、聽覺、嗅覺、味覺、觸覺等器官或儀器獲取,並有必定交際功能的東西,「信息」是不肯定性的減小,是負熵。所謂「處理」,是指用計算機對信息進行各類加工,主要的是圖像信息和語言信息的識別、模擬、分析、轉換和傳輸。網絡

  漢語在世界上屬於漢藏語系,是一種孤立語。漢語在歷史上前後吸取和同化了匈奴、鮮卑、突厥、契丹、滿、蒙古、梵語等語言裏面的許多成分。其主要特色有:工具

  (1) 漢語的獨一無二的特點是:徹底使用由象形文字演化而來的方塊漢字;大數據

  (2) 詞語沒有形態標記;  漢語是以字爲基本單位,詞之間沒有明顯的標記,詞自己也沒有明顯的形態標誌。因此中文信息處理的基礎課題和特有的問題就是中文分詞,分詞自己的也有必定的錯誤率[2],這無疑下降了後續處理的實際效果。搜索引擎

  (3) 結構鬆散,好比:我上街買菜,看見一我的,穿着一件軍大衣,打了賣菜的一巴掌, 臉都腫了。編碼

  (4) 語法靈活,即缺少狹義的形態,漢語句子中各個成分之間的關係一靠詞序,二靠「意 合」,三靠虛詞。spa

  (5) 語義靈活,一方面語法的靈活主要來源於語義的靈活;另外一方面同一結構能夠表達 不一樣的意思,同一意思能夠用不一樣結構表達。操作系統

  另外.現有的天然語言處理理論和技術大多都是以英語爲研究對象語言發展起來的.而漢語不管在語音、文字表示,仍是在詞彙,語法,語義及其語用等各個層面上都與之存在着很大的差別.這使得沒法直接套用西方已成熟的理論和技術,漢語無疑是計算模型比較不發達的語言。這對從事中文信息處理的研究者來講是一個巨大的挑戰和壓力。翻譯

  北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是知足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、天然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。中間件

  NLPIR大數據語義智能分析平臺主要有精準採集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能模塊,平臺提供了客戶端工具,雲服務與二次開發接口等多種產品使用形式。各個中間件API能夠無縫地融合到客戶的各種複雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不一樣操做系統平臺,能夠供Java,Python,C,C#等各種開發語言使用。

  隨着信息技術在我國社會生活各個領域應用的深刻,中文信息處理正在成爲人們工做和生活中不可或缺的手段,中文信息處理將具備更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實時機器翻譯、大規模中文文本處理、跨平臺中西文自動識別轉換、泛中文語義理解、中文電子商務等技術實現重大突破。中文信息處理已成爲我國信息技術研究、發展、應用和產業的基礎,在互聯網日益成長的今天,中文信息處理技術將會更加成熟並創新。

相關文章
相關標籤/搜索