近年來,數據挖掘引發了信息產業界的極大關注,其主要緣由是存在大量數據,能夠普遍使用,而且迫切須要將這些數據轉換成有用的信息和知識。獲取的信息和知識能夠普遍用於各類應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。
"數據挖掘"(Data Mining)是一種新的商業信息處理技術,其主要特色是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其餘模型化處理,從中提取輔助商業決策的關鍵性數據。近年來,數據挖掘引發了信息產業界的極大關注,其主要緣由是因爲企業數據庫的普遍使用,存在大量的數據,而且迫切須要從這些數據中獲取有用的信息的知識。獲取的信息和知識有普遍的應用,例如:商務管理、生產管理、市場控制、市場分析、工程設計和科學探索等。愈來愈多的IT企業看到了這一誘人的市場,紛紛加入到數據挖掘工具的開發中來,並得到豐厚的回報。但在數據挖掘的過程當中會遇到各類問題,如:
一、在數據庫中挖掘不一樣類型的知識:因爲不一樣的用戶可能對不一樣類型的知識感興趣,數據挖掘系統應當覆蓋廣譜的數據分析和知識發現任務,包括數據特徵、區分、關聯、聚類、趨勢、誤差分析和相似性分析。這些任務可能以不一樣的方式使用相同的數據庫,並須要開發大量數據挖掘技術。
二、多個抽象層的交互知識挖掘:因爲很難準確地知道可以在數據庫中發現什麼,數據挖掘過程應當是交互的。對於包含大量數據的數據庫,應當使用適當的選樣技術,進行交互式數據探查。交互式挖掘容許用戶聚焦搜索模式,根據返回的結果提出和精煉數據挖掘請求。用這種方法,用戶能夠與數據挖掘系統交互,以不一樣的粒度和從不一樣的角度觀察數據和發現模式。
三、結合背景知識:可使用背景知識或關於所研究領域的信息來指導發現過程,並使得發現的模式以簡潔的形式,在不一樣的抽象層表示。關於數據庫的領域知識,如完整性限制和演繹規則,能夠幫助聚焦和加快數據挖掘過程,或評估發現的模式的興趣度。
四、數據挖掘查詢語言和特定的數據挖掘:關係查詢語言(如 SQL)容許用戶提出特定的數據提取查詢。相似地,須要開發高級數據挖掘查詢語言,使得用戶經過說明分析任務的相關數據集、領域知識、所挖掘的數據類型、被發現的模式必須知足的條件和興趣度限制,描述特定的數據挖掘任務。這種語言應當與數據庫或數據倉庫查詢語言集成,而且對於有效的、靈活的數據挖掘是優化的。
五、數據挖掘結果的表示和顯示:發現的知識應當用高級語言、可視化表示形式、或其它表示形式表示,使得知識易於理解,可以直接被人使用。若是數據挖掘系統是交互的,這一點尤其重要。這要求系統採用有表達能力的知識表示技術,如樹、表、圖、圖表、交叉表、矩陣或曲線。
六、處理噪音和不徹底數據:存放在數據庫中數據可能反映噪音、例外狀況、或不徹底的數據對象。這些對象可能搞亂分析過程,致使數據與所構造的知識模型過度適應。其結果是,所發現的模式的精確性可能不好。須要處理數據噪音的數據清理方法和數據分析方法,以及發現和分析例外狀況的局外者挖掘方法。
七、模式評估——興趣度問題:數據挖掘系統可能發現數以千計的模式。對於給定的用戶,許多模式不是有趣的,它們表示平凡知識或缺少新穎性。關於開發模式興趣度的評估技術,特別是關於給定用戶類,基於用戶的信賴或指望,評估模式價值的主觀度量,仍然存在一些挑戰。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是知足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、天然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有精準採集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能模塊,平臺提供了客戶端工具,雲服務與二次開發接口等多種產品使用形式。各個中間件API能夠無縫地融合到客戶的各種複雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不一樣操做系統平臺,能夠供Java,Python,C,C#等各種開發語言使用。
數據挖掘技術及其應用是目前國際上的一個研究熱點,並在許多行業中獲得了很好的應用,尤爲是在市場營銷中得到了成功,初步體現了其優越性和發展潛力。在信息管理領域,綜合應用數據挖掘技術和人工智能技術,獲取用戶知識、文獻知識等各種知識,將是實現知識檢索和知識管理髮展的必經之路。數據庫