框架處理--機器學習術語

機器學習主要術語


監督式機器學習

機器學習系統經過學習如何組合輸入信息來對從未見過的數據作出有用的預測。機器學習


標籤

在簡單的線性迴歸中,標籤是咱們要預測的事物,即y變量。標籤能夠是小麥的價格、圖片中顯示的動物品種、音頻剪輯的含義或任何事物。學習

特徵

在簡單的線性迴歸中,特徵是輸入變量,即x變量。簡單的機器學習項目可能會使用單個特徵,而比較複雜的機器學習項目可能會使用數萬個特徵,按照以下方式指定:google

\{x_1, x_2, ... x_N\}

在垃圾郵件檢測器示例中,特徵可能包括:code

  • 電子郵件文本中的字詞
  • 發件人的地址
  • 發送電子郵件的時段
  • 電子郵件中包含「一種奇怪的把戲」這樣的短語
樣本

樣本是指數據的特定實例:X。(咱們採用粗體表示他是一個矢量。)咱們將樣本分爲如下兩類:生命週期

  • 有標籤樣本
  • 無標籤樣本

有標籤樣本同時包含特徵和標籤。即:圖片

labeled examples: {features, label}: (x, y)

咱們使用有標籤樣原本訓練模型。在咱們的垃圾郵件檢測器示例中,有標籤樣本是用戶明確標記爲「垃圾郵件」和「非垃圾郵件」的各個電子郵件。get

例如,下表顯示了從包含加利福尼亞州房價信息的數據集中抽取的五個有標籤樣本:table

housingMedianAge
(特徵)
totalRooms
(特徵)
totalBedrooms
(特徵)
medianHouseValue
(標籤)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

無標籤樣本包含特徵,可是不包含標籤。即:class

unlabeled examples: {features, ?}: (x, ?)
模型

模型定義了特徵與標籤之間的關係。例如,垃圾郵件監測模型可能會將某些特徵與「垃圾郵件」緊密聯繫起來。模型生命週期的兩個重要階段:音頻

  • 「訓練」表示建立或學習模型。也就是說,您向模型展現有標籤的樣本,讓模型逐漸學習特徵與標籤之間的關係。
  • 推斷表示將訓練後的模型應用於無標籤的贗本。
分類與迴歸

分類模型能夠預測離散值。例如,分類模型能夠作出的預測可回答以下問題:

  • 某個指定的電子郵件是垃圾郵件仍是非垃圾郵件?

  • 這是一張狗、貓仍是倉鼠的照片?

迴歸模型能夠預測連續值。例如,迴歸模型作出的預測能夠回答以下問題:

  • 加利福尼亞州一棟房產的價值是多少?
  • 用戶點擊此廣告的機率是多少?
引用:

問題構建 (Framing):機器學習主要術語

相關文章
相關標籤/搜索