機器學習與數據挖掘期末考試複習重點整理

分類:算法

– 有類別標記信息, 所以是一種監督學習網絡

– 根據訓練樣本得到分類器,而後把每一個數據歸結到某個已知的類,進而也能夠預測將來數據的歸類。函數

 

聚類:學習

– 無類別標記, 所以是一種無監督學習測試

– 無類別標記樣本,根據信息類似度原則進行聚類,經過聚類,人們可以識別密集的和稀疏的區域,於是發現全局的分佈模式,以及數據屬性之間的關係spa

 

聚類方法:對象

劃分方法  - (分割類型)排序

K-均值K-Means遞歸

順序領導者方法內存

基於模型的方法

基於密度的方法

層次方法(Hierarchical Methods

 

K-means思想:

肯定K的值;

隨機選擇K個樣本點,每一個樣本點初始地表明一個類的平均值或簇中心;

對剩餘每一個數據樣本點,根據其到類中心的距離,被劃分到最近的類;

從新計算每一個簇的平均值來更新每一個簇中心;

重複這個過程,直到全部樣本都不能再分配爲止;

返回K中心。

 

K-means優勢:

1、簡單,適用於常規不相交的簇。

2、假設數據是呈球形分佈,實際任務中不多有這種狀況

3、收斂相對較快。

4、相對有效和可擴展 O(t·k·n

t:迭代; k:中心數; n:數據點數

 

K-means 缺陷

1、須要提早指定 K 的值。

很難肯定,關於數據集的先驗知識(如數據集能夠分紅多少個部分)可能會有所幫助。

2、可能會收斂到局部最優勢。

在實踐中,嘗試不一樣的初始中心點, 從中挑選最好的結果。

3、可能對噪聲數據和異常值敏感。

由於簇的中心是取平均,所以聚類簇很遠的地方的噪聲會致使簇的中心點偏移(這代表均值並非一種穩健的統計量)

k-means聚類前, 經過預處理移除噪聲點每每很是有用

聚類後, 對聚類結果進行一些後處理效果也很好, 如刪除太小的聚簇, 或將彼此接近的一些聚簇合併成一個更大的聚簇

4、不適合非凸不規則形狀的簇,K均值很難處理非球狀的簇和不一樣大小的簇。

 

DBSCAN基於密度 優缺點:

1、由於DBSCAN是基於密度定義的, 抗噪聲能力強, 而且可以處理任意形狀和大小的簇。即能發現使用K均值所不能發現的簇。可是當簇密度變化太大時, 可能會出現問題。

2、對於高維數據, 其密度定義困難。K均值能夠用於稀疏的高維數據。

3、當近鄰計算須要計算全部點對的鄰近度時, DBSCAN的開銷很大。

 

高斯混合模型與k-means

共同點:

一、可用於聚類的算法

二、都須要指定k的值

三、都須要使用EM 算法求解

四、每每只能收斂於局部最優

GMMk-means的優勢是:

一、能夠給出一個樣本屬於一類的機率是多少,而不是絕對的屬於哪一類

二、能夠用於生成新的樣本點

三、多維的時候,高斯混合模型須要計算協方差,考察不一樣維度時間的約束關係

 

 

場景以下:

假設原樣本有兩類,TrueFalse,其中:

1.總共有T個類別爲True的樣本;

2.總共有F個類別爲False的樣本;

分類預測後:

1.總共有TT個類別爲True的樣本被系統判爲TrueFT個類別爲True的樣本被系統判爲False,則TT+FT=T

2.總共有FF個類別爲False的樣本被系統判爲FalseTF個類別爲False的樣本被系統判爲True,則FF+TF=F

l 指標計算:

l 精確度=TT/(TT+TF)--判斷正樣本中真正正樣本的比例

l 準確率=(TT+FF)/(T+F)--判斷正確的比重

l 召回率=TT/(TT+FT)--正確判斷正例的比重

l 漏報率=FT/(TT+FT)--多少個正例被漏判了

l 虛警率=TF/(TT+TF)--反映被判爲正例樣本中,有多少個是負例

 

•前向傳播-在前饋神經網絡中

•從輸入 x 到輸出 y, 信息經過網絡前向傳播

•在訓練階段, 前向傳播能夠繼續向前, 直到它產生標量代價函數C(θ)

 

 

•反向傳播

•容許來自代價函數的信息而後經過網絡反向流動, 以便計算梯度

•能夠被應用到任何函數

 

p 卷積: 圖像中不一樣數據窗口的數據和卷積核(一個濾波矩陣)做內積

的操做叫作卷積。其計算過程又稱爲濾波(filter),本質是提取圖像

不一樣頻段的特徵。

p 卷積核:具備的一個屬性就是局部性。即它只關注局部特徵,局部的

程度取決於卷積核的大小。本質就是比較圖像鄰近像素的類似性。所

以原圖像與卷積核的卷積,其實對頻域信息進行選擇。好比,圖像中

的邊緣和輪廓屬因而高頻信息,圖像中某區域強度的綜合考量屬於低

頻信息

 

 

K-NN

n 對未知記錄分類:

n 計算與各訓練記錄的距離

n 找出 k 個最近鄰

n 使用最近鄰的類標號決定未知記錄的類標號 (例如, 多數表決)

 

有那麼一堆你已經知道分類的數據,而後當一個新數據進入的時候,就開始跟訓練數據裏的每一個點求距離,而後挑離這個訓練數據最近的K個點看看這幾個點屬於什麼類型,而後用少數服從多數的原則,給新數據歸類。

 

k-NN的特色

n1、 是一種基於實例的學習

n 須要一個鄰近性度量來肯定實例間的類似性或距離

n 2、不須要創建模型,但分類一個測試樣例開銷很大

n 須要計算域全部訓練實例之間的距離

n 3、基於局部信息進行預測,對噪聲很是敏感

n 4、最近鄰分類器能夠生成任意形狀的決策邊界

n 決策樹和基於規則的分類器一般是直線決策邊界

n 5、須要適當的鄰近性度量和數據預處理

n 防止鄰近性度量被某個屬性左右

 

直接方法: 順序覆蓋或序貫覆蓋(sequential covering)

n 在訓練集上每學到一條規則, 就將該規則覆蓋的訓練樣例去除, 而後以剩下

的訓練樣例組成訓練集, 重複上述過程

 

SVM

SVM 是一種二類分類模型。它的基本模型是在特徵空間中尋找間隔最大化的分離超平面的線性分類器。

當訓練樣本線性可分時,經過硬間隔最大化,學習一個線性分類器,即線性可分支持向量機;

當訓練數據近似線性可分時,引入鬆弛變量,經過軟間隔最大化,學習一個線性分類器,即線性支持向量機;

當訓練數據線性不可分時,經過使用核技巧及軟間隔最大化,學習非線性支持向量機。

 

當樣本在原始空間線性不可分時,可將樣本空間映射到一個更高維的特徵空間,使得樣本在這個特徵空間內線性可分。而引入這樣的映射後,所要求解的對偶問題的求解中,無需求解真正的映射函數,而只須要知道核函數。核函數的定義:K(x,y)=φ(x)·φ(y),即在特徵空間的內積等於它們在原始樣本空間中經過核函數 K 計算的結果。一方面數據變成了高維空間中線性可分的數據,另外一方面不須要求解具體的映射函數,只須要給定具體的核函數便可,這樣使得求解的難度大大下降。

維災難(curse of dimensionality)

隨着數據維度的增長,許多數據分析變得很是困難。特殊地,隨着維度增長,數據在它所佔據的空間中愈來愈稀疏

對於分類,這可能意味沒有足夠的數據對象來建立模型

對於聚類,點之間的密度和距離的定義(對聚類是相當重要的)變得不太有意義

結果: 對於高維數據, 許多分類和聚類算法(以及其餘數據分析算法)都有麻煩——分類準確率下降,聚類質量降低

 

維歸約目的

1、避免維災難

2、下降數據挖掘算法的時間和內存消耗

3、使數據更容易可視化

4、能刪除不相關的特徵並下降噪聲

 

PCA是無監督學習, 不考慮標記信息

目標是找到捕獲數據中最大變化的投影

目的:數據降維、去噪,提取最有價值的信息(基於方差)

思想:將原始的高維(如維度爲N)數據向一個較低維度(如維度爲K)的空間投影,同時使得數據之間的區分度變大(找一個最好的軸,它的方差越大,使數據能分的越開)。這K維空間的每個維度的基向量(座標)就是一個主成分

把數據變換到一組新的基上,獲得了新的特徵的表達

問題:如何找到這K個主成分?

思路:使用方差信息,若在一個方向上發現數據分佈的方差越大,則說明該投影方向越能體現數據中的主要信息。該投影方向即應當是一個主成分

 

LDA的目標是在保留儘量多的類區分信息的同時進行降維.

 

PCA,它所做的只是將整組數據總體映射到最方便表示這組數據的座標軸上,映射時沒有利用任何數據內部的分類信息。所以,雖然作了PCA後,整組數據在表示上更加方便(下降了維數並將信息損失降到最低),但在分類上也許會變得更加困難;LDA,在增長了分類信息以後,兩組輸入映射到了另一個座標軸上,有了這樣一個映射,兩組數據之間的就變得更易區分了(在低維上就能夠區分,減小了很大的運算量)

因此PCALDA雖然都用到數據降維的思想,可是監督方式不同,目的也不同。PCA是爲了去除原始數據集中冗餘的維度,讓投影子空間的各個維度的方差儘量大,也就是熵儘量大。LDA是經過數據降維找到那些具備discriminative的維度,使得原始數據在這些維度上的投影,不一樣類別儘量區分開來。

 LDA的原理是,將帶上標籤的數據(點),經過投影的方法,投影到維度更低的空間中,使得投影后的點,會造成按類別區分,一簇一簇的狀況,相同類別的點,將會在投影后的空間中更接近。

 

決策樹的生成由兩個階段組成

• 決策樹構建

• 開始時,全部的訓練樣本都在根節點

• 遞歸的經過選定的屬性,來劃分樣本 (必須是離散值)

• 樹剪枝

• 許多分枝反映的是訓練數據中的噪聲和孤立點,樹剪枝試圖檢

測和剪去這種分枝,防止過擬合。由於在決策樹學習中,爲了儘量正確的分類訓練樣本,結點劃分過程將不斷重複,有時會形成決策樹分枝過多,,訓練數據擬合的太好,訓練樣本把自身的一些特色當作全部數據都有的通常性質而致使過擬合。

 

• 當決策樹很小時,訓練和檢驗偏差都很大,這種狀況稱爲模型擬合不足。出

現擬合不足的緣由是模型還沒有學習到數據的真實結構。

• 隨着決策樹中結點數的增長,模型的訓練偏差和檢驗偏差都會隨之降低。

• 當樹的規模變得太大時,即便訓練偏差還在繼續下降,可是檢驗偏差開始增

大,致使模型過度擬合

 

 

 

ID3 使用信息增益,它偏向於取值數目較多的屬性

C4.5 對連續屬性離散化,算法產生的分類規則易於理解,準確率高

但效率低,由於構造過程當中許屢次對數據集進行順序掃描和排序

克服了ID3的不足,在樹構造過程當中進行剪枝

CART 生成的決策樹分支較大,規模大

 

咱們但願決策樹的分支結點所包含的樣本儘量屬於同一類別,即結點的「純度」愈來愈高。Ent(D)越小,則D 的純度越高。

信息增益越大,則意味着使用屬性a來進行劃分所得到的純度提高越大

基尼指數Gini(D)反映了從數據集D中隨機抽取兩個樣本,其類別標記不一致的機率,所以Gini(D)越小,則數據集D的純度越高

相關文章
相關標籤/搜索