目錄算法
@(Python機器學習及實踐-----從零開始通往Kaggle競賽之路)機器學習
機器學習模型按照使用的數據類型,可分爲監督學習和無監督學習兩大類。函數
線性:假設特徵與分類結果存在線性關係,使用sigmoid函數映射到0~1,適合處理具備線性關係的數據。
在科學研究與工程實踐中可把線性分類器的表現做爲基準。lr使用精確解析,SGD使用隨機梯度上升估計模型參數,耗時短,準確率略低性能
支持向量機:精妙的模型假設,線性假設,只用考慮兩個空間間隔最小的兩個不一樣類別的數據點。能夠在高維數據中選擇最爲有效的少數訓練樣本。這樣不只節省了模型學習所須要的內存,並且也提升了模型的預測性能,但付出了計算資源和時間的代價。學習
樸素貝葉斯 (naive bayes )基於貝葉斯理論。前提:各個維度上的特徵被分類的條件機率之間互相獨立。component
k近鄰:不須要參數訓練,其屬於無參數模型。很是高的計算複雜度(平方級)和內存消耗。blog
決策樹:推斷邏輯直觀,有清晰的可解釋性,也方便模型的可視化,易描述非線性關係。模型在學習的時候,須要考慮特徵節點的選取順序。
經常使用的度量方式包括信息熵和基尼不純性。並不懂。。圖片
集成模型: 有表明性的隨機森林,同時搭建多個決策樹模型,開始投票。
決策樹能夠隨機選取特徵構建節點(隨機森林),或者按次序搭建分類模型(梯度提高決策樹GTB)
特色:訓練耗費時間,可是每每有更好的表現性能和穩定性。ip
我看分類這邊都在用線性的度量指標。內存
只是評估指標變了,在迴歸中有R^2^,MS(平方)E 均方偏差,MA(絕對)E平方絕對偏差。
R^2^用來衡量模型迴歸結果的波動可被真實值驗證的百分比,也暗示了模型在數值迴歸方面的能力。
主流的k-means採用的迭代算法,直觀易懂並不是常實用。
須要預先設定簇的數量
可以使用「肘部」觀察法粗略地預估相對合理的類簇個數。
主成分分析(PCA principal component analysis)
相較於損失的少部分模型性能。維度壓縮可以節省大量模型訓練時間。
明天開始進階篇
隱隱約約感受不太對,這個沒啥 基礎啊 全是調用