決策樹、隨機森林與k-means聚類算法

時間 2019-12-08

標籤決策樹隨機森林 means 算法简体版

原文原文鏈接

決策樹的構建知足信息熵增益最大化原則

決策樹的優勢：算法

可解釋性高
能處理非線性的數據
不須要數據歸一化
能夠用於特徵工程
對數據分佈沒有偏好
普遍使用
容易軟件實現
能夠轉化爲規則

決策樹的弱點函數

啓發式生成，不是最優解
容易過擬合
微小的數據改變會改變整個樹的形狀
對類別不平衡的數據不友好

隨機森林指訓練多個決策樹結果，預測時迴歸取均值，分類取衆數
隨機體如今帶放回的隨機取數據子集作訓練數據，隨機選擇的特徵子集中選擇一個特徵
隨機森林消除了決策樹容易過擬合的缺點，不會由於訓練數據的小變化而劇烈變化軟件

K-means算法

初始化：隨機選擇K個點，做爲初始中心點，每一個點表明一個group.
交替更新：
步驟1.計算每一個點到全部中心點的距離，把最近的距離記錄下來並賦把group賦給當前的點
步驟2.針對於每個group裏的點，計算其平均並做爲這個group的新的中心點（重心：分別每一個維度的座標和除以座標個數）。
若是中心點再也不變化就中止數據

必定會收斂嗎？必定收斂
不一樣的初始化結果，會不會帶來不同的結果？會不同
K-Means的目標函數是什麼？非凸函數，局部最優不必定是全局最優
$ \sum_{i=1}^n \sum_{k=1}^k r_{ik}(x_i-u_k) $
步驟1：假定u已知求r最優解步驟2：假定r已知求u最優解
K如何選擇？求出k=2-n的目標函數的值生成

其餘聚類算法：GMM、層次聚類、Spectral Clustrering、DBSCAN、Kernel K-Means...

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。