數據挖掘-概念、取樣方法研究

隨着數據庫技術的 飛速發展和普遍使用電 在數據庫裏電 存儲的 數據愈來愈龐大 門 在數據挖掘的領域裏電 要使用科學的方式 、方法 下降挖掘算法的時間電 使數據挖掘的效率更高門算法

1     數據的挖掘概念數據庫

數據庫中的知識發現又稱數據挖掘啕 數據庫領域研究和人工智 能是目前的熱點問題門 數據挖掘就是從擁有大量數據的數據庫中 找出先前未知的 、有着潛在價值的信息過程門 數據挖掘是決策支持 過程啕 它墓於模式識別、人工智能、機器學習、數據庫、可視化、統計 學等技術啕 自動分析企業數據進行推理電 挖掘出潛在模式電 幫助決策 者調整策略啕 做出正確決策口機器學習

發現具備潛在價值信息的過程啕 包含三個步驟 :第一是數據準 備電 第二是數據的挖掘啕 第三是挖掘的數據結果表達和解釋 口 數據 挖掘能夠與知識庫或用戶交互門工具

數據挖掘是在大量數據中找其規律啕 準備數據、尋找規律和表 達解釋規律口 準備數據就是從數據源中挑選須要的數據併合成用 做數據挖掘的數據集 :尋找規律就是從數據集中把它所含的規律找 出來:挖掘數據結果表達和解釋 就是把找出的規律表示出來口學習

數據挖掘任務包括聚類分析 、關聯分析 、特異羣組分析、分類分 析和演變分析等口優化

2     數據挖掘的特徵和本質人工智能

按常規來講電 j夾義的觀點認爲常規數據分析區別於數據挖掘的 關鍵點是電 常規數據分析側重於交叉報告 、描述性統計、假設檢驗 等電 數據挖掘則側重於預測 、分類、聚類與關聯等 4 類問題口 廣義的 觀點認爲從數據庫中挖掘的任何信息都叫作數據挖掘門 這樣看來電 數據挖掘就是商業智能 口 若是從技術術語上說電 數據挖掘指的是以 前的數據通過清洗轉換變成適合挖掘的數據集口  數據挖掘就是在 這神有着固定形式的數據集上完成了知識提煉啕 用合適的知識模式 作下一步分析決策工做 口 經過以上分析啕 筆者把數據挖掘定義爲 : 數據挖掘就是從數據集中挖掘和提煉知識的過程門spa

3     數據挖掘的取樣方法設計

取樣是一種成熟的統計技術啕 己被研究了上百年電 隨機抽樣技 術更是如此門 在數據管理領域裏電 關於隨機抽樣的有效性己有不少 描述啕 隨機抽樣能捕捉到數據基本特徵的很小部分數據子集來表明 總數據集電 根據該樣本集能得到類似的或近似的查詢結果電 這樣的 樣本集還能夠用於數據挖掘工做 口 近年來在不少領域中都採用 了 抽樣技術啕 並達得了很是不錯的效果電 這充分說明了抽樣技術的應 用愈來愈普遍流行門ci

抽樣的方法與分類 :數據項根據在抽樣技術中被選中的數據是 否相同電 抽樣方法能夠被分爲偏倚抽樣和均勻抽樣兩種口 在偏倚抽 樣中電 不同的元素入選的機率也可能不同 口 而在均勻抽樣中各 個元素入選的機率是相同的 口 相同的抽樣機率能以相同尺寸的抽 樣產生互動類同口 均勻抽樣經典的兩種設計是電 伯努利抽樣和水庫 抽樣啕 這兩種抽樣方法是其餘全部抽樣方法的基礎門 伯努利抽樣是

均勻抽樣,它的主要特色是所用的時間短 、操做簡單門生成的均勻 抽樣及大小爲 K啕 若是不少個元素到達時電 數據流中的元素會以 Kl N 的機率所選中電 當樣本集的大小超出了 K啕 就會從中隨機除去這 個樣本電 各個元素的入選機率都是相同的門 水庫抽樣方法是很是重 要的隨機均勻抽樣方法啕 是由原來的傳統方法拓展到數據庫領域門 大小空間固定 、時間複雜度爲零啕 更適合挖掘數據流的環境啕 成功的 抽樣技術確保了抽樣的質量門 從提升抽樣質量的角度上說電 採起了 三個類型的抽樣策略 :第一電 漸進抽樣啕 漸進抽樣就是先從一個小的 抽樣開始啕 慢慢再加大抽樣的抽樣率或抽樣尺寸啕 直到抽樣的正確 性不隨之改變爲止 :第二啕 從實驗樣本集中獲取數據集的特徵假定 或預評估啕 在這樣的基礎上再進行抽樣 :第三啕 爲具體的應用抽取特 定的數據特徵啕 而不是產生一個能適用於多種應用 的取樣集口

4     挖掘 SAS 數據的方法

SAS/EN  可實現數據集市和同數據倉庫啕 以及商務智能報表工 具的無f逢集成門 它有着數據抽樣工具 、數據獲取工具、數據挖掘工 具、數據篩算工具、數據挖掘過程、數據變量轉換工具和數據挖掘評 價工具門

第一電 數據抽樣門 進行數據抽樣時電 要從企業大量的數據裏找 出要探索問題的樣板數據子集電 並非調用所有數據 口 在數據抽樣 的過程當中電 必定要確保數據的質量啕 保證抽樣的數據的有效性 、真實 性、完整性和表明性口 只有這樣才能使之後的分析研究得出規律性 的結果門

第二啕 探索數據特徵啕 預處理 分析和子處理分析門 有了樣本 數據集後啕 看它是否是達到了之前的設想要求啕 趨勢和規律是否明 顯啕 是否有沒有設想過的數據狀態啕 因素之間是否有關聯性電 這些內 容是首先要探索的門 分析探索數據的特徵啕 可視化操做是最理想的 操做方法口

第三電 技術選擇和數據調整 、問題明確化門想讓解決的問題更 加明確時電 儘量把解決的問題進一步量化 口 在問題量化後的基礎 上電 就能按問題要求審視數據集了電 針對問題的需求看它是否是適 應啕 必要時要對數據進行刪除或增長電 在數據挖掘過程會有新的認 識啕 生成或組合新的變量啕 對狀態的有效描述就獲得充分體現門

5     結 語

隨着計算機科學的快速發展電 數據挖掘己成爲重要工具啕 本文 對數據挖掘的概念 、特徵和本質、取樣方法等進行了詳細分析啕 但願 爲數據挖掘的計算流程優化做出必定的貢獻 口

相關文章
相關標籤/搜索