NLPIR引用人工智能技術進行數據深度挖掘

時間 2019-12-12

原文原文鏈接

　　近年來，數據挖掘引發了信息產業界的極大關注，其主要緣由是存在大量數據，能夠普遍使用，而且迫切須要將這些數據轉換成有用的信息和知識。獲取的信息和知識能夠普遍用於各類應用，包括商務管理，生產控制，市場分析，工程設計和科學探索等。
　　"數據挖掘"(Data Mining)是一種新的商業信息處理技術，其主要特色是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其餘模型化處理，從中提取輔助商業決策的關鍵性數據。近年來，數據挖掘引發了信息產業界的極大關注，其主要緣由是因爲企業數據庫的普遍使用，存在大量的數據，而且迫切須要從這些數據中獲取有用的信息的知識。獲取的信息和知識有普遍的應用，例如：商務管理、生產管理、市場控制、市場分析、工程設計和科學探索等。愈來愈多的IT企業看到了這一誘人的市場，紛紛加入到數據挖掘工具的開發中來，並得到豐厚的回報。但在數據挖掘的過程當中會遇到各類問題，如:
　　一、在數據庫中挖掘不一樣類型的知識：因爲不一樣的用戶可能對不一樣類型的知識感興趣，數據挖掘系統應當覆蓋廣譜的數據分析和知識發現任務，包括數據特徵、區分、關聯、聚類、趨勢、誤差分析和相似性分析。這些任務可能以不一樣的方式使用相同的數據庫，並須要開發大量數據挖掘技術。
　　二、多個抽象層的交互知識挖掘：因爲很難準確地知道可以在數據庫中發現什麼，數據挖掘過程應當是交互的。對於包含大量數據的數據庫，應當使用適當的選樣技術，進行交互式數據探查。交互式挖掘容許用戶聚焦搜索模式，根據返回的結果提出和精煉數據挖掘請求。用這種方法，用戶能夠與數據挖掘系統交互，以不一樣的粒度和從不一樣的角度觀察數據和發現模式。
　　三、結合背景知識：可使用背景知識或關於所研究領域的信息來指導發現過程，並使得發現的模式以簡潔的形式，在不一樣的抽象層表示。關於數據庫的領域知識，如完整性限制和演繹規則，能夠幫助聚焦和加快數據挖掘過程，或評估發現的模式的興趣度。
　　四、數據挖掘查詢語言和特定的數據挖掘：關係查詢語言(如 SQL)容許用戶提出特定的數據提取查詢。相似地，須要開發高級數據挖掘查詢語言，使得用戶經過說明分析任務的相關數據集、領域知識、所挖掘的數據類型、被發現的模式必須知足的條件和興趣度限制，描述特定的數據挖掘任務。這種語言應當與數據庫或數據倉庫查詢語言集成，而且對於有效的、靈活的數據挖掘是優化的。
　　五、數據挖掘結果的表示和顯示：發現的知識應當用高級語言、可視化表示形式、或其它表示形式表示，使得知識易於理解，可以直接被人使用。若是數據挖掘系統是交互的，這一點尤其重要。這要求系統採用有表達能力的知識表示技術，如樹、表、圖、圖表、交叉表、矩陣或曲線。
　　六、處理噪音和不徹底數據：存放在數據庫中數據可能反映噪音、例外狀況、或不徹底的數據對象。這些對象可能搞亂分析過程，致使數據與所構造的知識模型過度適應。其結果是，所發現的模式的精確性可能不好。須要處理數據噪音的數據清理方法和數據分析方法，以及發現和分析例外狀況的局外者挖掘方法。
　　七、模式評估——興趣度問題：數據挖掘系統可能發現數以千計的模式。對於給定的用戶，許多模式不是有趣的，它們表示平凡知識或缺少新穎性。關於開發模式興趣度的評估技術，特別是關於給定用戶類，基於用戶的信賴或指望，評估模式價值的主觀度量，仍然存在一些挑戰。
　　北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是知足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、天然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。
　　NLPIR大數據語義智能分析平臺主要有精準採集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能模塊，平臺提供了客戶端工具，雲服務與二次開發接口等多種產品使用形式。各個中間件API能夠無縫地融合到客戶的各種複雜應用系統之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不一樣操做系統平臺，能夠供Java，Python，C，C#等各種開發語言使用。
　　數據挖掘技術及其應用是目前國際上的一個研究熱點，並在許多行業中獲得了很好的應用，尤爲是在市場營銷中得到了成功，初步體現了其優越性和發展潛力。在信息管理領域，綜合應用數據挖掘技術和人工智能技術，獲取用戶知識、文獻知識等各種知識，將是實現知識檢索和知識管理髮展的必經之路。數據庫