機器學習(二)-基本概念

時間 2019-12-05

標籤機器學習基本概念简体版

原文原文鏈接

1 數據集

在機器學習和模式識別等領域中，通常須要將樣本分紅獨立的三部分訓練集（train set），驗證集（validation set ) 和測試集（test set）。其中訓練集用來估計模型，驗證集用來調超參數，測試集用來測試模型準確度。算法

1.1 訓練集

訓練集用來估計模型；
訓練集佔總樣本的50%

1.2 開發集(驗證集)

驗證集用來肯定網絡結構或者控制模型複雜程度的參數
驗證集佔總樣本的25%

1.3 測試集

測試集則檢驗最終選擇最優的模型的性能如何
測試集佔總樣本的25%

1.4 簡單的機器學習流程

2 經常使用的機器學習算法介紹

分類算法：有監督, 舉例：貓狗分類
迴歸算法：有監督, 舉例：房價預測
聚類算法：無監督, 舉例：新聞分類
降維算法：數據處理
模型選擇算法：算法的選擇和參數調試所用到的技術
預處理算法：特徵提取和歸一化

3 有監督機器學習和無監督機器學習

3.1 有監督機器學習

咱們要教會計算機作某些事情
定義：咱們給算法一個數據集，其中包含了正確答案，算法的目的就是給出更多的正確答案
有監督機器學習例子：分類

3.2 無監督機器學習

讓計算機本身去作某些事情
定義: 咱們給算法一個數據集，可是不給他正確答案，而讓計算機本身去學習
無監督機器學習例子：聚類(預測鳶尾花卉)

Iris（鳶尾花）數據集是多重變量分析的數據集。每行數據包含4個屬性：Sepal Length（花萼長度）、Sepal Width（花萼寬度）、Petal Length（花瓣長度）和Petal Width（花瓣寬度）。可經過這4個屬性預測鳶尾花卉屬於種類（Setosa，Versicolour，Virginica）中的哪一類。具體分爲幾類，分析前是不知道的。網絡