機器學習(二)-基本概念

1 數據集

在機器學習和模式識別等領域中,通常須要將樣本分紅獨立的三部分訓練集(train set),驗證集(validation set ) 和測試集(test set)。其中訓練集用來估計模型,驗證集用來調超參數,測試集用來測試模型準確度。算法

1.1 訓練集

  • 訓練集用來估計模型;
  • 訓練集佔總樣本的50%

1.2 開發集(驗證集)

  • 驗證集用來肯定網絡結構或者控制模型複雜程度的參數
  • 驗證集佔總樣本的25%

1.3 測試集

  • 測試集則檢驗最終選擇最優的模型的性能如何
  • 測試集佔總樣本的25%

1.4 簡單的機器學習流程

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

2 經常使用的機器學習算法介紹

在這裏插入圖片描述

  • 分類算法:有監督, 舉例:貓狗分類
  • 迴歸算法:有監督, 舉例:房價預測
  • 聚類算法:無監督, 舉例:新聞分類
  • 降維算法: 數據處理
  • 模型選擇算法: 算法的選擇和參數調試所用到的技術
  • 預處理算法: 特徵提取和歸一化

3 有監督機器學習和無監督機器學習

3.1 有監督機器學習

  • 咱們要教會計算機作某些事情
  • 定義:咱們給算法一個數據集,其中包含了正確答案,算法的目的就是給出更多的正確答案
  • 有監督機器學習例子:分類

在這裏插入圖片描述

3.2 無監督機器學習

  • 讓計算機本身去作某些事情
  • 定義: 咱們給算法一個數據集,可是不給他正確答案,而讓計算機本身去學習
  • 無監督機器學習例子:聚類(預測鳶尾花卉)

Iris(鳶尾花)數據集是多重變量分析的數據集。每行數據包含4個屬性:Sepal Length(花萼長度)、Sepal Width(花萼寬度)、Petal Length(花瓣長度)和Petal Width(花瓣寬度)。可經過這4個屬性預測鳶尾花卉屬於種類(Setosa,Versicolour,Virginica)中的哪一類。具體分爲幾類, 分析前是不知道的。網絡

在這裏插入圖片描述

4 機器學習與人類學習

  • 有了機器學習,咱們還須要人爲經驗的干預嗎?

在這裏插入圖片描述

相關文章
相關標籤/搜索