Python機器學習及實踐 課後小題

@(Python機器學習及實踐-----從零開始通往Kaggle競賽之路)機器學習

第二章 2.3章末小結

1

機器學習模型按照使用的數據類型,可分爲監督學習和無監督學習兩大類。函數

  1. 監督學習主要包括分類和迴歸的模型。
  • 分類:線性分類,支持向量機(SVM),樸素貝葉斯,k近鄰,決策樹,集成模型(隨機森林(多個決策樹)等)。
  • 迴歸:線性迴歸,支持向量機(SVM),k近鄰,迴歸樹,集成模型(隨機森林(多個決策樹)等)。
  1. 無監督學習主要包括:數據聚類(k-means)和數據降維(主成分分析)等等。

在這裏插入圖片描述

分類模型

線性:假設特徵與分類結果存在線性關係,使用sigmoid函數映射到0~1,適合處理具備線性關係的數據。
在科學研究與工程實踐中可把線性分類器的表現做爲基準。lr使用精確解析,SGD使用隨機梯度上升估計模型參數,耗時短,準確率略低性能

  • 評價指標:準確性,召回率,精準率,和後兩者混合的F1指標

支持向量機:精妙的模型假設,線性假設,只用考慮兩個空間間隔最小的兩個不一樣類別的數據點。能夠在高維數據中選擇最爲有效的少數訓練樣本。這樣不只節省了模型學習所須要的內存,並且也提升了模型的預測性能,但付出了計算資源和時間的代價。學習

  • 評價指標:同上,在迴歸中有R^2^,MS(平方)E,MA(絕對)E。

樸素貝葉斯 (naive bayes )基於貝葉斯理論。前提:各個維度上的特徵被分類的條件機率之間互相獨立。component

  • 缺點:因爲模型的強假設,須要估計的參數規模從冪指數量級到線性數量級減小,極大節約了內存消耗和計算時間。可是對特徵關聯性較強的任務上表現不佳。
  • 評價指標:同線性

k近鄰:不須要參數訓練,其屬於無參數模型。很是高的計算複雜度(平方級)和內存消耗。blog

決策樹:推斷邏輯直觀,有清晰的可解釋性,也方便模型的可視化,易描述非線性關係。模型在學習的時候,須要考慮特徵節點的選取順序。
經常使用的度量方式包括信息熵和基尼不純性。並不懂。。圖片

集成模型: 有表明性的隨機森林,同時搭建多個決策樹模型,開始投票。
決策樹能夠隨機選取特徵構建節點(隨機森林),或者按次序搭建分類模型(梯度提高決策樹GTB)
特色:訓練耗費時間,可是每每有更好的表現性能和穩定性。ip

我看分類這邊都在用線性的度量指標。內存

迴歸模型

只是評估指標變了,在迴歸中有R^2^,MS(平方)E 均方偏差,MA(絕對)E平方絕對偏差。
R^2^用來衡量模型迴歸結果的波動可被真實值驗證的百分比,也暗示了模型在數值迴歸方面的能力。

無監督學習

數據聚類

主流的k-means採用的迭代算法,直觀易懂並不是常實用。

  • 容易收斂到局部最優解
  • 須要預先設定簇的數量
    可以使用「肘部」觀察法粗略地預估相對合理的類簇個數。

    數據降維

    主成分分析(PCA principal component analysis)
    相較於損失的少部分模型性能。維度壓縮可以節省大量模型訓練時間。

明天開始進階篇

隱隱約約感受不太對,這個沒啥 基礎啊 全是調用

相關文章
相關標籤/搜索