決策樹的優勢:算法
決策樹的弱點函數
隨機森林指訓練多個決策樹結果,預測時迴歸取均值,分類取衆數
隨機體如今帶放回的隨機取數據子集作訓練數據,隨機選擇的特徵子集中選擇一個特徵
隨機森林消除了決策樹容易過擬合的缺點,不會由於訓練數據的小變化而劇烈變化軟件
初始化:隨機選擇K個點,做爲初始中心點,每一個點表明一個group.
交替更新:
步驟1.計算每一個點到全部中心點的距離,把最近的距離記錄下來並賦把group賦給當前的點
步驟2.針對於每個group裏的點,計算其平均並做爲這個group的新的中心點(重心:分別每一個維度的座標和除以座標個數)。
若是中心點再也不變化就中止數據
必定會收斂嗎? 必定收斂
不一樣的初始化結果,會不會帶來不同的結果?會不同
K-Means的目標函數是什麼? 非凸函數,局部最優不必定是全局最優
$ \sum_{i=1}^n \sum_{k=1}^k r_{ik}(x_i-u_k) $
步驟1:假定u已知求r最優解 步驟2:假定r已知求u最優解
K如何選擇?求出k=2-n的目標函數的值生成
其餘聚類算法:GMM、層次聚類、Spectral Clustrering、DBSCAN、Kernel K-Means...