(二) 機器學習基本概念

基本概念:訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,迴歸


概念學習:人類學習概念:鳥,飛機,狗,貓,計算機,盒子,車,房子,不斷的區分實體特徵從而學會了概念


定義:概念學習是指從有關某個布爾函數的輸入輸出訓練樣例中推斷出該布爾函數


  • 例子:學習 「享受運動」 這一概念:
    小明進行水上運動,是否享受運動取決於很多因素

 這裏寫圖片描述

天氣:晴,陰,雨
溫度:暖,冷
度:普通,大
風力:強,弱
溫:暖,冷
預報:一樣,變化

享受運動:是,否


概念定義在實例(instance,即每一天各種因素的影響,即表格中的一行所有屬性集合可以理解爲實例)集合之上,這個集合表示爲X。(X:所有可能的日子,每個日子的值由 天氣,溫度,溼度,風力,水溫,預報6個屬性表示。

  • 待學習的概念或目標函數成爲目標概念(target concept), 記做c。
    c(x) = 1, 當享受運動時, c(x) = 0 當不享受運動時,c(x)也可叫做y
    x: 每一個實例
    X: 樣例, 所有實例的集合
    學習目標(就是學習到這個映射函數,也就是上面所說的布爾函數):f: X -> Y

訓練集(training set/data)/訓練樣例(training examples): 用來進行訓練,也就是產生模型或者算法的數據集,例如,以上我們想通過學習以上數據集(假設有一百天的屬性與是否享受運動的集合),來學習出,根據以上6個屬性得到是否享受運動的這一概念函數,那麼這一百天的實例集合就成爲訓練集


測試集(testing set/data)/測試樣例 (testing examples):用來專門進行測試已經學習好的模型或者算法的數據集(比如我們一共有110天的實例,那麼用前一百天作爲訓練集,得到生產模型,那麼用這後10天的實例(假裝不知道這十天是否享受運動只知道天氣屬性)和這個模型來預測,這十天小明是否享受運動,這十天就是測試樣例


特徵向量(features/feature vector):屬性的集合,通常用一個向量來表示,附屬於一個實例(上面實例的天氣屬性的值)
標記(label): c(x), 實例類別的標記 (上面例子的是否享受運動的是和否)
正例(positive example)
反例(negative example)


例子:研究美國硅谷房價(標記爲數值型)(迴歸)
影響房價的兩個重要因素:面積(平方米),學區(評分1-10)

這裏寫圖片描述


  • 分類 (classification): 目標標記爲類別型數據(category)
  • 迴歸(regression): 目標標記爲連續性數值 (continuous numeric value)

例子:研究腫瘤良性,惡性於尺寸,顏色的關係
特徵值:腫瘤尺寸,顏色
標記:良性/惡性


  • 有監督學習(supervised learning): 訓練集有類別標記(class label)
  • 無監督學習(unsupervised learning): 無類別標記(class label)
  • 半監督學習(semi-supervised learning):有類別標記的訓練集 + 無標記的訓練集

機器學習步驟框架

  1. 把數據拆分爲訓練集和測試集
  2. 用訓練集和訓練集的特徵向量來訓練算法
  3. 用學習來的算法運用在測試集上來評估算法 (可能要設計到調整參數(parameter tuning, 用驗證集(validation set)來調參數,然後進行測試)
    這裏寫圖片描述