隨着計算機技術、網絡技術、通信技術、Internet技術的迅速發展和電子商務、辦公自動化、管理信息系統、Internet 的普及等,企業業務操做流程日益自動化,企業經營過程當中產生了大量的數據,這些數據和由此產生的信息是企業的寶貴財富,它如實地記錄着企業經營的本質情況。可是面對如此大量的數據,傳統的數據分析方法,如數據檢索、統計分析等只能得到數據的表層信息,不能得到其內在的、深層次的信息,管理者面臨着數據豐富而知識貧乏的困境。如何從這些數據中挖掘出對企業經營決策有用的知識是很是重要的,數據挖掘即是爲適應這種須要應運而生的。
「大數據」做爲時下最火熱的IT行業的詞彙,隨之數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數量的商業價值的利用逐漸成爲行業人士爭相追捧的利潤焦點。
數據挖掘是一種新的商業信息處理技術,其主要特色是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其餘模型化處理,從中提取輔助商業決策的關鍵性數據。
簡而言之,數據挖掘實際上是一類深層次的數據分析方法。數據分析自己已經有不少年的歷史,只不過在過去數據收集和分析的目的是用於科學研究,另外,因爲當時計算能力的限制,對大數據量進行分析的複雜數據分析方法受到很大限制。如今,因爲各行業業務自動化的實現,商業領域產生了大量的業務數據,這些數據再也不是爲了分析的目的而收集的,而是因爲純機會的(Opportunistic)商業運做而產生。分析這些數據也再也不是單純爲了研究的須要,更主要是爲商業決策提供真正有價值的信息,進而得到利潤。但全部企業面臨的一個共同問題是:企業數據量很是大,而其中真正有價值的信息卻不多,所以從大量的數據中通過深層分析,得到有利於商業運做、提升競爭力的信息,就像從礦石中淘金同樣,數據挖掘也所以而得名。
所以,數據挖掘能夠描述爲:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,並進一步將其模型化的先進有效的方法。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR-Parser大數據語義智能分析技術是對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、天然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR-Parser大數據語義智能分析平臺主要有精準採集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能模塊,平臺提供了客戶端工具,雲服務與二次開發接口等多種產品使用形式。各個中間件API能夠無縫地融合到客戶的各種複雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不一樣操做系統平臺,能夠供Java,Python,C,C#等各種開發語言使用。
隨着雲計算、移動互聯網以及物聯網等技術的發展和完善,相信大數據在各個領域的應用會愈來愈普遍和深刻,相關的研究也會愈來愈全面和深刻,在信息管理領域,綜合應用數據挖掘技術和人工智能技術,獲取用戶知識、文獻知識等各種知識,將是實現知識檢索和知識管理髮展的必經之路。數據庫