機器學習，瞭解一下？

時間 2019-12-07

標籤機器學習瞭解一下简体版

原文原文鏈接

文章圖片來源於 GitHub，網速不佳的朋友請點我看原文。html

順便軟廣一下我的技術小站：godbmw.com。歡迎常來♪(^∇^*)python

1. 爲何要學？

老師上課時候就說過：傳統算法解決肯定性問題，而機器學習解決非肯定性問題。

好吧，確實激起了個人興趣，因此係統學習一下吧。算法

2. 機器學習算法

機器學習算法和普通算法仍是有很大區別的。它不要求百分之百準確，而且對數學要求較高。機器學習

我認爲重點有幾下 4 點：學習

理解算法原理
應用實際場景
進行對比試驗

不一樣算法對比
同一算法不一樣參數對比

難點有幾下幾點：優化

如何評價算法好壞
解決擬合和過擬合
如何正確調參
如何驗證算法正確性

3. 能夠解決什麼問題？

有些算法既能夠處理分類、也能夠處理迴歸任務，而在一些狀況下，迴歸任務能夠簡化爲分類任務，以方便問題解決。

3.1 分類任務

常見的有分類任務有 2 分類和多分類任務，而且二者之間能夠轉化。spa

好比 AlphaGo 下圍棋，能夠理解成一個多分類任務：由於是在選擇棋盤上的落子點。除此以外，推箱子游戲：可能有 2-4 個方向提供選擇，也能夠理解成分類任務。code

3.2 多標籤分類

而在 ML 前沿領域，實現了多標籤分類：再也不單純的是一個分類，而是擁有多個標籤。htm

例以下面這張含有多個標籤的圖片，多標籤會讓機器對它的定位更準確：
遊戲

3.3 迴歸任務

機器得到結果是一個連續的數字的值，而不是一個類別。連續的值能夠劃分爲無限多個小的點（能夠理解成無限多個類別），又怎麼能處理成類別呢。

4. 算法分類

4.1 監督學習

交給算法的訓練數據已經被打了「標籤」，或者已經給出了分類。訓練後的算法能夠給新的數據打標籤或者分類。

所以，監督學習的訓練數據須要大量的人力來進行標記。

固然，在一些領域已經積累了一些被標記的數據信息，例如大型博客平臺，對每篇博客都有分類和標籤。這種時候，監督學習的人力成本基本就是 0 了。

4.2 非監督學習

給機器的訓練數據沒有任何「標籤」，或者分類。訓練後的算法仍然能夠給新的數據打標籤或者分類。

常常聽到的算法，就有聚類分析，好比每一個用戶都被電商平臺劃分到某一用戶羣體。

另外一個很是重要的用途，是對數據進行降維處理：

特徵提取：提取重要的特徵，去除不重要的特徵。防止噪聲影響特徵提取。
特徵壓縮：在保證數據信息不被過多損害的狀況下，將高維向量壓縮成低維向量，例如 PCA 算法。在保證穩定性的狀況下，提升處理速度。

另外一個很是重要的用途：異常檢測。以下圖所示。以方便算法發現通常性特徵和規律。

4.3 半監督學習

一部分數據有「標籤」或分類，另外一部分並無。

此時，通常經過無監督學習手段對數據進行處理，以後使用監督學習作模型的訓練和預測。

4.4 加強學習

根據周圍環境，採起行動，再根據行動結果，改善學習行動方式。

以下圖所示，agent 使咱們的算法，當他執行後，會根據環境反饋來執行獎賞或者懲罰，再改進行爲模式。循環往復。

而 AlphaGo、自動駕駛等前言機器人，都使用了加強學習。

5. 更多算法分類

5.1 批量學習和在線學習

批量學習是指：算法一旦根據數據訓練出模型後，不會接受新的數據來優化模型。在線學習是指：算法運行的過程當中，也會把吸取新數據進行模型訓練。

優缺點顯而易見，前者更省心，可是沒法適應數據快速變化的場景；後者能夠及時針對不一樣的數據來優化模型，可是容易受到新數據中垃圾數據影響。

5.2 非參數學習和參數學習

參數學習是給出數據模型，剩下的工做就是利用算法找出最合適參數。好比假定數據點符合y = ax + b的模型，剩下工做就是用最小二乘法之類的算法找到(a,b)的最優解。

非參數學習相反，不對模型進行過多假設，不將問題理解成學習一些參數。

5. 學習資料

在線課程：
Python3 入門機器學習經典算法與應用
書籍：《python 機器學習實戰》

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。