數據的總體叫作數據集 ( data set )算法
每一行數據被稱爲一個樣本 ( sample )機器學習
最後一列, 稱爲標記 ( label )學習
表中的每一個列都是一個特徵, 用特徵向量來表示一個特徵值優化
特徵進行數據表示後的範圍空間spa
此圖中的形式是一個二維的特徵空間, 高維的話則基於低維進行推導便可3d
不少的特徵並不必定非要具體, 好比圖像識別像素點blog
給機器的訓練數據擁有 "標記" 或者 "答案"數學
給機器的訓練數據沒有 "標記" 或者 "答案"效率
對沒有 "標記" 的數據進行分類 - 聚類分析監控
特徵提取
信用卡的評級和人的身高如何關係?
特徵壓縮
PCA, 以下圖這種二維的特徵表示呈現出一種一維的線性表現, 這時可進行特徵壓縮
在儘可能少損失特徵信息的狀況下, 將高維的特徵向量壓縮成低緯的特徵向量, 大大提升效率並且不會下降質量
方即可視化
高維有點很差處理, 降維天然容易理解
異常檢測
以下圖中的兩個紅點就很不適合總體的狀態, 所以檢測出後進行干預便可
給機器的訓練數據一部分有 "標記" 或者 "答案", 另外一部分沒有
在現實中更常見, 各類緣由都會產生標記的缺失
無人駕駛, 機器人等應用場景
進行一個批次的數據樣本進行學習以及辨識, 訓練出的算法線上投入使用
不會對新的數據樣原本更新本身的學習能力, 運算識別能力基於最初的效率和質量
優勢 簡單
如何適應環境變化 ? - 定時從新批量學習
缺點 每次從新批量學習, 運算量巨大, 某些環境變化快的狀況下, 基本無望
進行一個批次的數據樣本進行學習以及辨識, 訓練出的算法線上投入使用
會對新的數據樣原本更新本身的學習能力, 運算識別能力會基於最初的版本不斷的自動優化提高適應當前的樣本情景
優勢 及時反映新的環境變化
新數據帶來很差的變化 ? - 增強對數據的監控
其餘 也適用於數據量巨大, 徹底沒法批量學習的環境
假設存在某個參數, 大量的數據集都是基於此參數存在的一個具體實例
分析數據集自己就是爲了得到參數