基本概念:訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,迴歸
概念學習:人類學習概念:鳥,飛機,狗,貓,計算機,盒子,車,房子,不斷的區分實體特徵從而學會了概念
定義:概念學習是指從有關某個布爾函數的輸入輸出訓練樣例中推斷出該布爾函數
天氣:晴,陰,雨
溫度:暖,冷
度:普通,大
風力:強,弱
溫:暖,冷
預報:一樣,變化
享受運動:是,否
概念定義在實例(instance,即每一天各種因素的影響,即表格中的一行所有屬性集合可以理解爲實例)集合之上,這個集合表示爲X。(X:所有可能的日子,每個日子的值由 天氣,溫度,溼度,風力,水溫,預報6個屬性表示。
訓練集(training set/data)/訓練樣例(training examples): 用來進行訓練,也就是產生模型或者算法的數據集,例如,以上我們想通過學習以上數據集(假設有一百天的屬性與是否享受運動的集合),來學習出,根據以上6個屬性得到是否享受運動的這一概念函數,那麼這一百天的實例集合就成爲訓練集
測試集(testing set/data)/測試樣例 (testing examples):用來專門進行測試已經學習好的模型或者算法的數據集(比如我們一共有110天的實例,那麼用前一百天作爲訓練集,得到生產模型,那麼用這後10天的實例(假裝不知道這十天是否享受運動只知道天氣屬性)和這個模型來預測,這十天小明是否享受運動,這十天就是測試樣例
特徵向量(features/feature vector):屬性的集合,通常用一個向量來表示,附屬於一個實例(上面實例的天氣屬性的值)
標記(label): c(x), 實例類別的標記 (上面例子的是否享受運動的是和否)
正例(positive example)
反例(negative example)
例子:研究美國硅谷房價(標記爲數值型)(迴歸)
影響房價的兩個重要因素:面積(平方米),學區(評分1-10)
例子:研究腫瘤良性,惡性於尺寸,顏色的關係
特徵值:腫瘤尺寸,顏色
標記:良性/惡性
機器學習步驟框架