數據挖掘相關算法

數據挖掘算法總結

1.分類算法

所謂分類,簡單來講,就是根據文本的特徵或屬性,劃分到已有的類別中。經常使用的分類算法包括:決策樹分類法,樸素的貝葉斯分類算法(native Bayesian classifier)、基於支持向量機(SVM)的分類器,神經網絡法,k-最近鄰法(k-nearest neighbor,kNN),模糊分類法等等html

  • 決策樹分類法算法

    機器學習中決策樹是一個預測模型,它表示對象屬性和對象值之間的一種映射,樹中的每個節點表示對象屬性的判斷條件,其分支表示符合節點條件的對象。樹的葉子節點表示對象所屬的預測結果。網絡

 

  • 樸素的貝葉斯分類算法(native Bayesian classifier)機器學習

    img

    舉例說明,咱們想計算含有單詞drugs的郵件爲垃圾郵件的機率。 在這裏,A爲「這是封垃圾郵件」。咱們先來計算P(A),它也被稱爲先驗機率,計算方法是,統計訓練中的垃圾郵件的比例,若是咱們的數據集每100封郵件有30封垃圾郵件,P(A)爲30/100=0.3。 B表示「該封郵件含有單詞drugs」。相似地,咱們能夠經過計算數據集中含有單詞drugs的郵件數P(B)。若是每100封郵件有10封包含有drugs,那麼P(B)就爲10/100=0.1。 P(B|A)指的是垃圾郵件中含有的單詞drugs的機率,計算起來也很容易,若是30封郵件中有6封含有drugs,那麼P(B|A)的機率爲6/30=0.2。 如今,就能夠根據貝葉斯定理計算出P(A|B),獲得含有drugs的郵件爲垃圾郵件的機率。把上面的每一項帶入前面的貝葉斯公式,獲得結果爲0.6。這代表若是郵件中含有drugs這個詞,那麼該郵件爲垃圾郵件的機率爲60%。其實,經過上面的例子咱們能夠知道它能計算個體從屬於給定類別的機率。所以,他能用來分類。 咱們用C表示某種類別,用D表明數據集中的一篇文檔,來計算貝葉斯公式所要用到的各類統計量,對於很差計算的,作出樸素假設,簡化計算。 P(C)爲某一類別的機率,能夠從訓練集中計算獲得。 P(D)爲某一文檔的機率,它牽扯到不少特徵,計算很難,可是,能夠這樣理解,當在計算文檔屬於哪一類別時,對於全部類別來講,每一篇文檔都是獨立重複事件,P(D)相同,所以根本不用計算它。稍後看怎樣處理它。 P(D|C)爲文檔D屬於C類的機率,因爲D包含不少特徵,計算起來很難,這時樸素貝葉斯就派上用場了,咱們樸素地假定各個特徵是互相獨立的,分別計算每一個特徵(D一、D二、D3等)在給定類別的機率,再求他們的積。 img函數

2.聚類算法

3.迴歸模型

本小節將介紹五種常見的迴歸模型的概念及其優缺點,包括線性迴歸(Linear Regression), 多項式迴歸(Ploynomial Regression), 嶺迴歸(Ridge Regression),Lasso迴歸和彈性迴歸網絡(ElasticNet Regression).spa

  • 線性迴歸(Linear Regression).net

    線性迴歸的幾個特色:

    1. 建模速度快,不須要很複雜的計算,在數據量大的狀況下依然運行速度很快。

    2. 能夠根據係數給出每一個變量的理解和解釋

    3. 對異常值很敏感

  • 多項式迴歸(Ploynomial Regression)

    多項式迴歸的特色:

    1. 可以擬合非線性可分的數據,更加靈活的處理複雜的關係

    2. 由於須要設置變量的指數,因此它是徹底控制要素變量的建模

    3. 須要一些數據的先驗知識才能選擇最佳指數

    4. 若是指數選擇不當容易出現過擬合

  • 嶺迴歸(Ridge Regression)

    分析嶺迴歸以前首先要說的一個共線性(collinearity)的概念,共線性是自變量之間存在近似線性的關係,這種狀況下就會對迴歸分析帶來很大的影響。由於所分析的X1老是混雜了X2的做用,這樣就形成了分析偏差,因此迴歸分析時須要排除高共線性的影響。

    標準線性迴歸的優化函數以下:

     

    其中X表示特徵變量,w表示權重,y表示真實狀況。嶺迴歸是針對模型中存在的共線性關係的爲變量增長一個小的平方誤差因子(也就是正則項),能夠表示成下面的式子:

     

    這樣的平方誤差因子向模型中引入了少許誤差,但大大減小了方差。 領回歸的特色:

    1. 領回歸的假設和最小平方迴歸相同,可是在最小平方迴歸的時候咱們假設數據服從高斯分佈使用的是極大似然估計(MLE),在領回歸的時候因爲添加了誤差因子,即w的先驗信息,使用的是極大後驗估計(MAP)來獲得最終的參數

    2. 沒有特徵選擇功能

  • Lasso迴歸

    Lesso與嶺迴歸很是類似,都是在迴歸優化函數中增長了一個偏置項以減小共線性的影響,從而減小模型方程。不一樣的是Lasso迴歸中使用了絕對值誤差做爲正則化項,Lasso迴歸能夠表示成下面的式子:

     

    嶺迴歸和Lasso迴歸之間的差別能夠歸結爲L1正則和L2正則之間的差別: 內置的特徵選擇(Built-in feature selection):這是L1範數頗有用的一個屬性,而L2範數不具備這種特性。由於L1範數傾向於產生係數。例如,模型中有100個係數,但其中只有10個係數是非零係數,也就是說只有這10個變量是有用的,其餘90個都是沒有用的。而L2範數產生非稀疏係數,因此沒有這種屬性。所以能夠說Lasso迴歸作了一種參數選擇形式,未被選中的特徵變量對總體的權重爲0。 稀疏性:指矩陣或向量中只有極少個非零係數。L1範數具備產生具備零值或具備不多大系數的很是小值的許多係數的屬性。 計算效率:L1範數沒有解析解,但L2範數有。這使得L2範數的解能夠經過計算獲得。L1範數的解具備稀疏性,這使得它能夠與稀疏算法一塊兒使用,這使得在計算上更有效率。

  • 彈性迴歸網絡(ElasticNet Regression)

    彈性迴歸網絡是Lesso迴歸和嶺迴歸技術的混合體。它使用了L1和L2正則化,也達到了兩種技術共有的效果,彈性迴歸網絡的表達式以下:

     

    在Lasso和嶺迴歸之間進行權衡的一個實際是運行彈性網絡在循環的狀況下繼承嶺迴歸的一些穩定性。 彈性迴歸網絡的優勢:

    1. 鼓勵在高度相關變量的狀況下的羣體效應,而不像Lasso那樣將其中一些置爲0.當多個特徵和另外一個特徵相關的時候彈性網絡很是有用。Lasso傾向於隨機選擇其中一個,而彈性網絡傾向於選擇兩個。

    2. 對所選變量的數量沒有限制。

4.神經網絡

这里写图片描述

这里写图片描述

 

  • 激活函數

以下圖,在神經元中,輸入的 inputs 經過加權,求和後,還被做用了一個函數,這個函數就是激活函數 Activation Function。

这里写图片描述

若是不用激勵函數,每一層輸出都是上層輸入的線性函數,不管神經網絡有多少層,輸出都是輸入的線性組合。若是使用的話,激活函數給神經元引入了非線性因素,使得神經網絡能夠任意逼近任何非線性函數,這樣神經網絡就能夠應用到衆多的非線性模型中。

 

 

參考連接:http://www.javashuo.com/article/p-ebiudirc-cs.html

        http://www.javashuo.com/article/p-phnnaxip-ns.html

相關文章
相關標籤/搜索