決策樹、隨機森林與k-means聚類算法

決策樹的構建知足信息熵增益最大化原則

決策樹的優勢:算法

  • 可解釋性高
  • 能處理非線性的數據
  • 不須要數據歸一化
  • 能夠用於特徵工程
  • 對數據分佈沒有偏好
  • 普遍使用
  • 容易軟件實現
  • 能夠轉化爲規則

決策樹的弱點函數

  • 啓發式生成,不是最優解
  • 容易過擬合
  • 微小的數據改變會改變整個樹的形狀
  • 對類別不平衡的數據不友好

隨機森林指訓練多個決策樹結果,預測時迴歸取均值,分類取衆數
隨機體如今帶放回的隨機取數據子集作訓練數據,隨機選擇的特徵子集中選擇一個特徵
隨機森林消除了決策樹容易過擬合的缺點,不會由於訓練數據的小變化而劇烈變化軟件

K-means算法

初始化:隨機選擇K個點,做爲初始中心點,每一個點表明一個group.
交替更新:
步驟1.計算每一個點到全部中心點的距離,把最近的距離記錄下來並賦把group賦給當前的點
步驟2.針對於每個group裏的點,計算其平均並做爲這個group的新的中心點(重心:分別每一個維度的座標和除以座標個數)。
若是中心點再也不變化就中止數據

必定會收斂嗎? 必定收斂
不一樣的初始化結果,會不會帶來不同的結果?會不同
K-Means的目標函數是什麼? 非凸函數,局部最優不必定是全局最優
$ \sum_{i=1}^n \sum_{k=1}^k r_{ik}(x_i-u_k) $
步驟1:假定u已知求r最優解 步驟2:假定r已知求u最優解
K如何選擇?求出k=2-n的目標函數的值生成

其餘聚類算法:GMM、層次聚類、Spectral Clustrering、DBSCAN、Kernel K-Means...

相關文章
相關標籤/搜索