基本概念:訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,迴歸
概念學習:人類學習概念:鳥,車,計算機
定義:概念學習是指從有關某個布爾函數的輸入輸出訓練樣例中推斷出該布爾函數
例子:學習 「享受運動」 這一概念:
小明進行水上運動,是否享受運動取決於很多因素
天氣:晴,陰,雨
溫度:暖,冷
溼度:普通,大
風力:強,弱
水溫:暖,冷
預報:一樣,變化
享受運動:是,否
概念定義在實例(instance)集合之上,這個集合表示爲X。(X:所有可能
的日子,每個日子的值由 天氣,溫度,溼度,風力,水溫,預報6個屬性表示。
待學習的概念或目標函數成爲目標概念(target concept), 記做c。
c(x) = 1 當享受運動時, c(x) = 0 當不享受運動時,c(x)也可叫做y
x: 每一個實例
X: 樣例, 所有實例的集合
學習目標:f: X -> Y
4 . 訓練集(training set/data)/訓練樣例(training examples): 用來進行訓練,也就是產生模型或者算法的數據集
測試集(testing set/data)/測試樣例 (testing examples):用來專門進行測試已經學習好的模型或者算法的數據集
標記(label): c(x), 實例類別的標記
正例(positive example)
反例(negative example)
5 . 分類 (classification): 目標標記爲類別型數據(category)
迴歸(regression): 目標標記爲連續性數值 (continuous numeric value)
6 . 有監督學習(supervised learning): 訓練集有類別標記(class label)
無監督學習(unsupervised learning): 無類別標記(class label)
半監督學習(semi-supervised learning):有類別標記的訓練集 + 無標記的訓練集
7 . 機器學習步驟框架
1) 把數據拆分爲訓練集和測試集
2) 用訓練集和訓練集的特徵向量來訓練算法
3) 用學習來的算法運用在測試集上來評估算法 (可能要設計到調整參數(parameter tuning), 用驗證集(validation set)