機器學習系統經過學習如何組合輸入信息來對從未見過的數據作出有用的預測。機器學習
在簡單的線性迴歸中,標籤是咱們要預測的事物,即y變量。標籤能夠是小麥的價格、圖片中顯示的動物品種、音頻剪輯的含義或任何事物。學習
在簡單的線性迴歸中,特徵是輸入變量,即x變量。簡單的機器學習項目可能會使用單個特徵,而比較複雜的機器學習項目可能會使用數萬個特徵,按照以下方式指定:google
\{x_1, x_2, ... x_N\}
在垃圾郵件檢測器示例中,特徵可能包括:code
樣本是指數據的特定實例:X。(咱們採用粗體表示他是一個矢量。)咱們將樣本分爲如下兩類:生命週期
有標籤樣本同時包含特徵和標籤。即:圖片
labeled examples: {features, label}: (x, y)
咱們使用有標籤樣原本訓練模型。在咱們的垃圾郵件檢測器示例中,有標籤樣本是用戶明確標記爲「垃圾郵件」和「非垃圾郵件」的各個電子郵件。get
例如,下表顯示了從包含加利福尼亞州房價信息的數據集中抽取的五個有標籤樣本:table
housingMedianAge (特徵) |
totalRooms (特徵) |
totalBedrooms (特徵) |
medianHouseValue (標籤) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
無標籤樣本包含特徵,可是不包含標籤。即:class
unlabeled examples: {features, ?}: (x, ?)
模型定義了特徵與標籤之間的關係。例如,垃圾郵件監測模型可能會將某些特徵與「垃圾郵件」緊密聯繫起來。模型生命週期的兩個重要階段:音頻
分類模型能夠預測離散值。例如,分類模型能夠作出的預測可回答以下問題:
某個指定的電子郵件是垃圾郵件仍是非垃圾郵件?
這是一張狗、貓仍是倉鼠的照片?
迴歸模型能夠預測連續值。例如,迴歸模型作出的預測能夠回答以下問題: