初識數據挖掘

 

   以前一直在看聚類算法,由此也就對數據挖掘這個領域頗感興趣,恰好考完試有了時間可以好好琢磨琢磨。對於初學者而言,首先呢,對數據挖掘的一些點作以下總結: 算法

1 初識數據挖掘數據庫

    隨着社會的發展,各行各業都創建起了各自的數據庫體系,如何對這些數據實現最大化利用是很值得研究的問題,由此數據挖掘技術應運而生,我的理解的數據挖掘就是從大量的數據中發現數據背後潛在的有用價值。機器學習

    數據的產生和收集技術一直在不斷提高,海量數據集隨之增長,同時呢,高維數據也越發廣泛。由此要求數據挖掘算法必須具備可伸縮性,除此也要適應高維性。工具

    可想而知,數據挖掘的發展必將面臨各類挑戰,因此數據挖掘融合了統計學的抽樣、估計和假設檢驗;人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論等各個領域的思想。性能

 

2 數據挖掘的任務學習

(1)分類搜索引擎

a. 預測任務:根據其餘屬性的值來預測特定屬性的值;人工智能

b. 描述任務:發現數據中潛在的模式。spa

(2)主要任務對象

a. 預測建模:經常使用的有分類和迴歸,分類用來預測離散的目標變量,而回歸用來預測連續的目標變量。預測建模能夠用來預測客戶對一個促銷活動的反應、預測地球生態系統的擾動等等。

b. 關聯分析:用有效的方式提取有用的模式。應用包括找出具備相關功能的基因組、識別用戶一塊兒訪問的Web頁面等等,好比能夠根據銷售數據發現顧客常常同時購買的商品。

c. 聚類分析:以類似度爲基礎,經過必定的方法對元素進行聚類,使得處於同簇之間元素最爲類似,不一樣簇元素之間的類似度差異儘量大。應用包括圖像識別等,固然在搜索引擎中也有着舉足輕重的地位。

d. 異常檢測:發現真正的特徵顯著不一樣於其餘數據的觀測值,在此必定要避免將正常的對象標註爲異常點,一個好的異常檢測器必須具備高檢測率和低誤報率。應用包括檢測欺詐、疾病的不尋常模式等等。

 

3 數據的預處理

(1)彙集

將兩個或多個對象合併爲單個對象。但缺點是極可能丟失有些細節。

(2)抽樣

處理全部數據的費用過高,因此採用抽樣算法來壓縮數據量。可是缺點是會致使信息損失,所以在抽樣的過程當中肯定適當的樣本容量很重要。

(3)維歸約

   維歸約的優點以下:

 . 維歸約使得維度(即元素的屬性)下降,使得數據挖掘的效果會更好;

 . 使得模型更易理解;

 . 使數據更容易可視化。

    維歸約經常使用線性代數技術,將數據從高維空間投影到低維空間。其中最經常使用的是主成分分析法(PCA),找到新屬性(原屬性的線性組合),而且保證新屬性是相互正交的。奇異值分解也能夠用於維歸約。

(4)特徵子集的選擇

    除去冗餘或不相關的特徵,進而僅使用特徵的一個子集來表示。雖然看起來是會丟失一部分信息,但事實並不是如此,冗餘和不相關的特徵對結果並無太大的意義。

    特徵子集選擇的標準方法有:嵌入、過濾和包裝。其中過濾和包裝所不一樣的是評估的方法不一樣,嵌入方法是與具體的算法有關。

特徵選擇的過程能夠看做由四部分構成:子集的評估度量、控制新的特徵子集產生策略、中止搜索判斷和檢驗過程。

特徵加權是特徵選擇的辦法,是根據特徵的重要性分別對不一樣的特徵賦予必定的權值。

(5)特徵建立

根據已知的屬性建立新的屬性,從而能更有效的捕獲到有用的信息,主要包括如下幾點:

. 特徵提取

.映射數據到新的空間。好比對於時間序列,經過傅里葉變換產生屬性與頻率有關的新數據對象;

.特徵構造:當前的信息不適合數據挖掘算法時,構造有用的新特徵。

(6)離散化和二元化

(7)變量轉換:能夠對數據進行規範化或標準化。

 

4 數據挖掘與機器學習以及模式識別的區別與聯繫

    就它們的本質而言,數據挖掘重在發現,而模式識別重在認識,機器學習是方法,模式識別是目的。機器學習和模式識別均可以做爲數據挖掘的工具。

    機器學習指的是具體的算法,並能預測性能更好的算法。而數據挖掘則還包括創建和維護數據庫、數據清洗、數據可視化以及結果的使用,同時呢,要綜合運用到各領域的知識。

 

固然,須要瞭解的知識還有不少,一些簡單的我在此也再也不贅餘,之後繼續加油學習吧~

走走停停,停很重要——

大概懂得了一些基本知識以後,是否是就能夠看十大算法了呢?好期待。。。

相關文章
相關標籤/搜索