機器學習（05）——主要概念理解

時間 2020-01-11

標籤機器學習主要概念理解简体版

原文原文鏈接

機器學習的專業術語很是多，不須要一開始理解全部的專業術語，這些術語會隨着對機器學習的深刻，會慢慢理解，水到渠成。html

不過在學習的過程當中，有一些概念必需要了解，有助於後續的學習與理解，須要瞭解的核心概念有：監督學習、無監督學習、模型、策略、算法等。git

監督學習

監督學習，指的是學習的數據與後續測試的數據，都有答案（標籤）。github

好比說，咱們本身的相片集，裏面每一個人咱們都知道是誰並能夠標識出來，給機器學習時，咱們將每一個單人照和對應的名字提交給機器學習模型，機器學習模型完成學習之後，咱們繼續提交新的相片（單人或多人的），模型直接輸出照片中每一個人的名字。而對這類有標準答案的數據集的學習，就是有監督學習。算法

監督學習主要用來處理分類與迴歸兩類問題。apache

分類：好比前面對相片的學習，輸出的是相片中人物對應的名字標籤，這個名字標籤能夠理解爲分類的類別名稱。百香果的酸與甜、人的性別男與女等這些離散的類別，都是機器學習中分類算法處理的目標。
迴歸：迴歸類算法主要是用來預測連續值的變化。好比預測一我的工做年限與收入的變化；網站每日訪問量（PV值）變化；廣告投放與新增用戶、消費（充值）的關係變化等等，這類數據類型的增減變化，就是迴歸算法預測的目標。

監督學習經常使用算法包括：K最近鄰算法、樸素貝葉斯算法、線性迴歸算法、邏輯迴歸算法、決策樹算法、神經網絡算法、支持向量機算法、因子分解機算法等網絡

無監督學習

無監督學習，指的是經過對數據的統計、分析、分類等方法處理後，從中發現數據自己的自有規律，從而提取出對應的類別、知識或模型的學習方法。能夠簡單理解爲，數據沒有標準答案，甚至咱們都不知道里面的答案，只知道有一堆數據，須要運行算法自動對這些數據進行各類分類處理，幫助咱們找出規律（分類類別）的過程。機器學習

無監督學習主要概念：函數

聚類：在無監督學習中，將數據集分紅由相似的對象組成多個類的過程稱爲聚類。

好比DNA，每一個個體都有類似與獨特的地方，想要了解DNA中每一個基因的做用，就可使用無監督學習進行學習與分析，將具備不一樣類型或特特徵的人彙集到一塊，而後根據經過對這些人的共同點進行分析，從而得出特定基因的做用。一樣，無監督學習能夠應用到廣告系統、推薦系統、新聞分類等各種系統中，面對海量的數據，從中找出不一樣的類型特徵，幫助咱們更快速的找到數據的特徵與共性，從而讓數據發揮更多更重要的做用。學習

無監督學習經常使用算法包括：K均值算法、最大指望算法、感知機算法、主成分分析算法、奇異值分解算法等。測試

半監督學習

半監督學習是監督學習與監督學習結合的一種方法，指的是將有標籤數據和無標籤數據一塊兒提供模型學習的方法。

咱們都知道人力成本是最貴的，若是須要對數據都打上標籤，所花費的人工成本與時間成本是很可觀的，何況有些數據咱們也不清楚它們的規律沒法添加標籤。而半監督學習，能夠將已知的有價值的數據先打上標籤，跟無標籤數據一塊兒給機器進行學習，機器訓練並輸出結果，咱們可對結果打上新的籤標後繼續提供給機器訓練，從而提高預測結果，固然，若是標籤標記不許確，也可能會誤導訓練模型，得出錯誤的結論。

無監督學習經常使用算法包括：協同訓練算法(Co-Training)和轉導支持向量機算法。

機器學習的三要素：模型、策略和算法

機器學習由模型、策略和算法組成。模型用於做出決策，策略用於評價決策，算法用於修正模型。

模型

簡單的理解，指的是模子。

百度百科有兩個解釋我以爲很貼切：

人們依據研究的特定目的，在必定的假設條件下，再現原型（antetype）客體的結構、功能、屬性、關係、過程等本質特徵的物質形式或思惟形式。
對研究的實體進行必要的簡化，並用適當的變現形式或規則把它的主要特徵描述出來。所獲得的系統模仿品稱之爲模型。

機器學習中的模型，就是爲了預測和分析指定的目標，運行已知的策略和算法，所構建的學習統計模型，經過對數據的學習（統計分析和找出其機率分佈規律），最終能對目標進行準確預測。

策略

在百度百科中解釋爲：

策略，指計策；謀略。通常是指能夠實現目標的方案集合；根據形勢發展而制定的行動方針和鬥爭方法.

在機器學習中的策略，指的是實現模型方案集合的最優解。要實現同一個目標（模型），有無數種解決方案，而不一樣的解決方案各有優劣，在監督學習中引入了損失函數，來找出最優化的模型。

算法

在百度百科中解釋爲：

算法（Algorithm）是指解題方案的準確而完整的描述，是一系列解決問題的清晰指令，算法表明着用系統的方法描述解決問題的策略機制。

算法簡單理解，就是計算方法。在機器學習中，用什麼樣的計算方法，來幫助機器學習模型和策略，快速、高效、準確的計算出結果。在海量的數據與幾何級複雜度的數據中，找出數據分佈規律和機率，也是至關困難的，而機器學習算法模型中，提供了梯度降低、降維等算法，來求解出最優解，減小過擬合等各類問題。

算法項目的兩個脈絡

（圖片來自：https://www.imooc.com/read/50/article/974）

問題線：業務問題 -> 機制問題 -> 模型問題

評估線：長期跟蹤 <- AB實驗 <- 模型評估

算法工程師對模型直接負責，對整個項目要有大局觀

項目 -> 解決業務問題

例如：業務運營部門但願提高業務收入

業務問題 -> 分析拆解，找出關鍵指標 -> 獲得解決方案（公式）-> 肯定可控與不可控因素

指標1：提高新增用戶量 = 渠道數 * 廣告曝光量 * 用戶轉化比率 = 加大渠道投入 可控因素：渠道數量與廣告曝光量（廣告費） 不可控因素：用戶轉化比率 待分析問題：各渠道用戶轉化率差異？渠道推廣投入的產出比盈虧情況？廣告投放精準度與效果如何確認？相同渠道不一樣時間段投放廣告，用戶轉化率變化？不一樣渠道同一時間段投放廣告用戶轉化率有什麼不一樣？視頻廣告與圖文廣告對用戶轉化率的影響？不一樣版本以及這些版本異常報告數量對用戶轉化率的影響？不一樣品牌用戶轉化率？不一樣機型用戶轉化率？是否存在刷量問題（新增用戶的IP、機型、活躍變化、留存變化、在線時長、用戶行爲漏斗分析、充值轉化比率……等問題的監控）？…… 指標2：提高用戶留存 指標3：提高用戶充值比例 ……

不可控因素 -> 如何變爲可控？-> 創建機器學習預測分析模型 -> 什麼算法模型適合當前問題？怎麼設計和得出算法公式？爲何這個模型能對數據進行預測？

創建機器學習模型 -> 模型預測準確性？-> 算法層是否正確，對模型進行綜合評估，肯定預測模型正確率指標 -> 開展AB實驗進行驗證 -> 經過同比、環比等多項指標，評估推薦結果正確性 -> 全量推廣，長期跟蹤效果