k-近鄰算法:算法
僞代碼:網站
1 計算已知類別數據集的中每一個點與當前點的距離排序
2 按照距離遞增排序遞歸
3 選取距離最近的k個點文檔
4 返回這k個點出現頻率最高的類別總結
書中使用的例子:數據
約會網站的選人分類 手寫識別系統di
總結:gis
要有多維的概念, 數據集中有幾個特徵就應該是幾維。系統
決策樹:
僞代碼:(比較複雜 能夠看書)
尋找劃分數據集的最好特徵
使用遞歸構建決策樹 熵的使用
書中使用的例子:
動物的分類 眼鏡的分類
樸素貝葉斯:
僞代碼:
就是比較屬於某個分類的機率大小
書中使用的例子:
文檔分類
logistic 迴歸:
梯度上升法:
僞代碼:
1 每一個迴歸係數初始化爲1
重複R次:
計算整個數據集的梯度
使用 步長(alpha)*gradient更新迴歸係數的向量
返回迴歸係數
隨機梯度上升:
僞代碼:
全部迴歸係數初始化爲1
對數據集中的每一個樣本:
計算該樣本的梯度
使用 步長(alpha)*gradient更新迴歸係數的向量
返回迴歸係數