機器學習基石筆記3——在什麼時候可使用機器學習(3)(修改版)

轉載請註明出處:http://www.cnblogs.com/ymingjingr/p/4271742.htmlhtml

目錄

機器學習基石筆記1——在什麼時候可使用機器學習(1)

機器學習基石筆記2——在什麼時候可使用機器學習(2)

機器學習基石筆記3——在什麼時候可使用機器學習(3)(修改版)

機器學習基石筆記4——在什麼時候可使用機器學習(4)

機器學習基石筆記5——爲何機器能夠學習(1)

機器學習基石筆記6——爲何機器能夠學習(2)

機器學習基石筆記7——爲何機器能夠學習(3)

機器學習基石筆記8——爲何機器能夠學習(4)

機器學習基石筆記9——機器能夠怎樣學習(1)

機器學習基石筆記10——機器能夠怎樣學習(2)

機器學習基石筆記11——機器能夠怎樣學習(3)

機器學習基石筆記12——機器能夠怎樣學習(4)

機器學習基石筆記13——機器能夠怎樣學得更好(1)

機器學習基石筆記14——機器能夠怎樣學得更好(2)

機器學習基石筆記15——機器能夠怎樣學得更好(3)

機器學習基石筆記16——機器能夠怎樣學得更好(4)

 

3、Types of Learning

各類類型的機器學習問題。算法

3.1 Learning with Different Output Space

不一樣類型的輸出空間。機器學習

3.1.1 binary classification

二元分類問題。學習

前兩章中提到的銀行發信用卡問題就是一個典型的二元分類問題,其輸出空間只包含兩個標記+1和-1,分別對應着髮卡與不髮卡。spa

固然二元分類問題包含多種狀況,如2.3節中提到過,如圖3-1所示。3d

 

圖3-1 a) 線性可分 b) 線性不可分包含噪音 c) 多項式可分htm

 

圖3-1a爲線性可分(linear binary separable),如可使用PLA求解;b是包含噪音可使用pocket求解,而c會在後面章節中詳細敘述,屬於多項式可分解。固然解決以上三種二元分類問題的機器學習方法不少,由於二元分類問題是機器學習中很重要、核心的問題。blog

 

3.1.2 Multiclass Classification

多元分類。圖片

有二元分類,就不難想到多元分類的問題,該類問題輸出標籤不止兩種,而是{1,2,…,K}。這在人們的生活中很是常見,好比給水果的圖像分類,識別硬幣等等,其主要的應用場景就是模式識別。get

 

3.1.3 Regression

迴歸分析。

該問題的輸出空間爲整個實數集上或者在必定的實數範圍內,這和前面講的分類問題徹底不同,該輸出不是一種毫無心義的標記,而是有實際意義的輸出值。好比給定一個大氣數據能夠推出明天的天氣等等之類的問題。統計學習對該類問題的研究比較成熟。

 

3.1.4 Structured Learning

結構學習。

固然還有其餘更爲複雜的問題,好比不少不少類型的分類問題。

 

3.2 Learning with Different Data Label

不一樣的數據標記。

3.2.1 Supervised Learning

監督學習。

知道數據輸入的同時還知道數據的標記。就至關於告訴你題目的同時還告訴你答案,讓你在這種環境下學習,稱之爲監督學習(supervised learning)或者叫有師學習(learning with a teacher),以前討論的一些算法都是這類問題。舉個例子,硬幣分類問題,如圖3-2所示,其中橫軸標示硬幣的大小,縱軸標示硬幣彙集的堆。

 

圖3-2 有監督的多類別分類問題

 

其中這幾種類別的硬幣已經被各類不一樣的顏色所標示好。

 

3.2.2 Unsupervised Learning

無監督學習。

這是一種沒有標示(就是沒有輸出y)的問題,就是不告訴你題目的正確答案讓你本身去尋找,再以硬幣分類爲例進行闡述,如圖3-3所示。

 

圖3-3 無監督的多類別分類問題

 

這種類型的問題最多見的是聚類或者叫分羣(clustering),從圖中不難看出無標示的難度比有標示的難度增長很多,並且極有可能犯錯,可是這種問題卻擁有普遍的應用場景(畢竟標示須要花費大量人力物力),如將新聞按照不一樣的主題聚類,按用戶的屬性將用戶聚成不一樣類型的用戶羣等等。

除了聚類以外還有其餘的無監督學習,如密度評估(density estimation)和離羣點檢測(outlier detection)等等。

 

3.2.3 Semi-supervised Learning

半監督學習。

是否能在監督式學習和無監督學習之間取一箇中庸的方法呢?答案是能夠的,就是半監督學習,它經過少許有標記的訓練點和大量無標記的訓練點達到學習的目的。仍是以硬幣爲例,如圖3-4所示。這種類型的例子也有不少,好比圖像的識別,不少狀況下咱們不可能把每張圖片都作上標記(由於作這種標記須要耗費大量的人力物力,是一種昂貴的行爲),此時,使用半監督學習是一種不錯的選擇。

 

圖3-4 半監督學習

 

3.2.4 Reinforcement Learning

強化學習。

前面三個是機器學習中最傳統的三種方式,除此以外,還有一種方式是經過對一個行爲做出獎勵或者懲罰,以此得到的輸出,進而進行學習,這種學習方式稱之爲強化學習。

通常能夠表示爲,其中向量仍是爲輸入向量,表示一種輸出,注意並不必定是最佳輸出,最後一項是對輸出作出的評判。好比一個廣告系統能夠寫成以下形式

 

3.3 Learning with Different Protocol

不一樣方式獲取數據。

對此節的內容進行簡單闡述,在不一樣的協議中能夠將機器學習分爲三大類:

  1. 批量(batch)學習就是將不少數據一次性的給算法進行學習,最多見的方式;
  2. 在線(online)學習就是一點一點將數據傳輸進去,如PLA和加強學習都適用於這種形式;
  3. 主動(active)學習是主動提出問題讓算法解決,能夠節省大量的訓練和標記消耗。

     

3.4 Learning with Different Input Space

不一樣的輸入空間。

輸入又能夠稱之爲特徵(features),其主要分爲三種:

  1. 具體特徵(Concrete Features),具體特徵最大特色就是便於機器學習的處理,也是基礎篇中主要討論的情形。這種狀況是人類或者機器經過必定的方式提取得到的,具備實用性。
  2. 原始特徵(Raw Features),如圖片的像素等等,是最爲常見到的資料,可是須要通過處理,轉換成具體特徵,才容易使用,實用性不太大。
  3. 抽象特徵(Abstract Features),如一些ID之類的看似無心義的數據,這就更須要特徵的轉換、提取等工做(相對於原始特徵而言),幾乎沒有實用性。
相關文章
相關標籤/搜索