Python機器學習及實踐課後小題

時間 2020-02-11

標籤 python 機器學習實踐課後欄目 Python 简体版

原文原文鏈接

目錄算法

第二章 2.3章末小結

@(Python機器學習及實踐-----從零開始通往Kaggle競賽之路)機器學習

第二章 2.3章末小結

1

機器學習模型按照使用的數據類型，可分爲監督學習和無監督學習兩大類。函數

監督學習主要包括分類和迴歸的模型。

分類：線性分類，支持向量機（SVM），樸素貝葉斯，k近鄰，決策樹，集成模型（隨機森林（多個決策樹）等）。
迴歸：線性迴歸，支持向量機（SVM），k近鄰，迴歸樹，集成模型（隨機森林（多個決策樹）等）。

無監督學習主要包括：數據聚類（k-means）和數據降維（主成分分析）等等。

分類模型

線性：假設特徵與分類結果存在線性關係，使用sigmoid函數映射到0～1，適合處理具備線性關係的數據。
在科學研究與工程實踐中可把線性分類器的表現做爲基準。lr使用精確解析，SGD使用隨機梯度上升估計模型參數，耗時短，準確率略低性能

評價指標：準確性，召回率，精準率，和後兩者混合的F1指標

支持向量機：精妙的模型假設，線性假設，只用考慮兩個空間間隔最小的兩個不一樣類別的數據點。能夠在高維數據中選擇最爲有效的少數訓練樣本。這樣不只節省了模型學習所須要的內存，並且也提升了模型的預測性能，但付出了計算資源和時間的代價。學習

評價指標：同上，在迴歸中有R^2^，MS（平方）E，MA（絕對）E。

樸素貝葉斯（naive bayes ）基於貝葉斯理論。前提：各個維度上的特徵被分類的條件機率之間互相獨立。component

缺點：因爲模型的強假設，須要估計的參數規模從冪指數量級到線性數量級減小，極大節約了內存消耗和計算時間。可是對特徵關聯性較強的任務上表現不佳。
評價指標：同線性

k近鄰：不須要參數訓練，其屬於無參數模型。很是高的計算複雜度（平方級）和內存消耗。blog

決策樹：推斷邏輯直觀，有清晰的可解釋性，也方便模型的可視化，易描述非線性關係。模型在學習的時候，須要考慮特徵節點的選取順序。
經常使用的度量方式包括信息熵和基尼不純性。並不懂。。圖片

集成模型：有表明性的隨機森林，同時搭建多個決策樹模型，開始投票。
決策樹能夠隨機選取特徵構建節點（隨機森林），或者按次序搭建分類模型（梯度提高決策樹GTB）
特色：訓練耗費時間，可是每每有更好的表現性能和穩定性。ip

我看分類這邊都在用線性的度量指標。內存

迴歸模型

只是評估指標變了，在迴歸中有R^2^，MS（平方）E 均方偏差，MA（絕對）E平方絕對偏差。
R^2^用來衡量模型迴歸結果的波動可被真實值驗證的百分比，也暗示了模型在數值迴歸方面的能力。

無監督學習

數據聚類

主流的k-means採用的迭代算法，直觀易懂並不是常實用。

容易收斂到局部最優解
須要預先設定簇的數量
可以使用「肘部」觀察法粗略地預估相對合理的類簇個數。

數據降維

主成分分析（PCA principal component analysis）
相較於損失的少部分模型性能。維度壓縮可以節省大量模型訓練時間。

明天開始進階篇

隱隱約約感受不太對，這個沒啥基礎啊全是調用

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

Python機器學習及實踐 課後小題