機器學習算法簡介

時間 2019-11-12

標籤機器學習算法簡介简体版

原文原文鏈接

首先，機器學習算法的分類：
一、監督式學習
工做機制：用有正確答案的數據來訓練算法進行機器學習。
表明算法：迴歸、決策樹、隨機森林、K – 近鄰算法、邏輯迴歸，支持向量機等。
二、非監督式學習
工做機制：訓練數據沒有標籤或者答案，目的是找出數據內部的關聯和模式，趨勢。
表明算法：關聯算法和聚類算法。
3. 半監督學習
工做機制：結合（少許的）標定訓練數據和（大量的）未標定數據來進行學習
表明算法： GANs(生成式對抗網絡算法)
四、強化學習
工做機制：給予算法一個不斷試錯，並具備獎勵機制的場景，最終使算法找到最佳路徑或者策略。
表明算法：馬爾可夫決策過程，AlphaGo+Zero, 蒙特卡洛算法算法

詳細介紹（一點點，之後再修改）：bootstrap

一、迴歸網絡

什麼叫線性迴歸？dom

線性迴歸問題就是試圖學到一個線性模型儘量準確地預測新樣本的輸出值
　　例如：經過歷年的人口數據預測2017年人口數量。
在這類問題中，每每咱們會先獲得一系列的有標記數據，例如：2000–>13億…2016–>15億，這時輸入的屬性只有一個，即年份；也有輸入多屬性的情形，假設咱們預測一我的的收入，這時輸入的屬性值就不止一個了，例如：（學歷，年齡，性別，顏值，身高，體重）–>15k。機器學習

咱們要作到的是讓預測值儘可能逼近真實值，作到偏差最小，而均方偏差就是表達這種偏差的一種，因此咱們要求解多元線性迴歸模型，就是要求解使均方偏差最小化時所對應的參數：函數

其中w*爲模型對應的解，即便得均方偏差函數最小化時的權重向量。
能夠用最小二乘法對模型的參數進行估計，具體作法是：損失函數對須要求解的參數進行求導，而且令其導數爲0，求得相應的參數。學習

二、決策樹(Decision Tree)spa

決策樹概括的基本算法是貪心算法，它以自頂向下遞歸各個擊破的方式構造決策樹。
　　貪心算法：在每一步選擇中都採起在當前狀態下最好/優的選擇。
在其生成過程當中，分割方法即屬性選擇度量是關鍵。經過屬性選擇度量，選擇出最好的將樣本分類的屬性。
根據分割方法的不一樣，決策樹能夠分爲兩類：
　　基於信息論的方法（較有表明性的是ID三、C4.5算法等）
　　最小GINI指標方法（經常使用的有CART、SLIQ及SPRINT算法等）。rest

三、隨機森林Random Forestorm

　　在機器學習中，隨機森林是一個包含多個決策樹的分類器，而且其輸出的類別是由個別樹輸出的類別的衆數而定。 Leo Breiman和Adele Cutler發展出推論出隨機森林的算法。而 "Random Forests" 是他們的商標。這個術語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林（random decision forests）而來的。這個方法則是結合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造決策樹的集合。

根據下列算法而建造每棵樹^[1] ：