1 數據集
在機器學習和模式識別等領域中,通常須要將樣本分紅獨立的三部分訓練集(train set),驗證集(validation set ) 和測試集(test set)。其中訓練集用來估計模型,驗證集用來調超參數,測試集用來測試模型準確度。算法
1.1 訓練集
1.2 開發集(驗證集)
- 驗證集用來肯定網絡結構或者控制模型複雜程度的參數
- 驗證集佔總樣本的25%
1.3 測試集
- 測試集則檢驗最終選擇最優的模型的性能如何
- 測試集佔總樣本的25%
1.4 簡單的機器學習流程



2 經常使用的機器學習算法介紹

- 分類算法:有監督, 舉例:貓狗分類
- 迴歸算法:有監督, 舉例:房價預測
- 聚類算法:無監督, 舉例:新聞分類
- 降維算法: 數據處理
- 模型選擇算法: 算法的選擇和參數調試所用到的技術
- 預處理算法: 特徵提取和歸一化
3 有監督機器學習和無監督機器學習
3.1 有監督機器學習
- 咱們要教會計算機作某些事情
- 定義:咱們給算法一個數據集,其中包含了正確答案,算法的目的就是給出更多的正確答案
- 有監督機器學習例子:分類

3.2 無監督機器學習
- 讓計算機本身去作某些事情
- 定義: 咱們給算法一個數據集,可是不給他正確答案,而讓計算機本身去學習
- 無監督機器學習例子:聚類(預測鳶尾花卉)
Iris(鳶尾花)數據集是多重變量分析的數據集。每行數據包含4個屬性:Sepal Length(花萼長度)、Sepal Width(花萼寬度)、Petal Length(花瓣長度)和Petal Width(花瓣寬度)。可經過這4個屬性預測鳶尾花卉屬於種類(Setosa,Versicolour,Virginica)中的哪一類。具體分爲幾類, 分析前是不知道的。網絡

4 機器學習與人類學習
