1.0 機器學習概念介紹

機器學習的基本概念

數據

數據集

數據的總體叫作數據集   ( data set )算法

樣本

每一行數據被稱爲一個樣本   ( sample )機器學習

標記   

最後一列, 稱爲標記   ( label )學習

特徵

表中的每一個列都是一個特徵, 用特徵向量來表示一個特徵值優化

特徵空間

特徵進行數據表示後的範圍空間spa

此圖中的形式是一個二維的特徵空間, 高維的話則基於低維進行推導便可3d

抽象特徵

不少的特徵並不必定非要具體, 好比圖像識別像素點blog

機器學習的基本任務

分類任務

二分類

多分類

 

多標籤分類

迴歸任務

 

 

 什麼是機器學習

機器學習方法的分類

監督學習

給機器的訓練數據擁有 "標記" 或者 "答案"數學

監督學習的應用場景

監督學習的算法

非監督學習

給機器的訓練數據沒有 "標記" 或者 "答案"效率

聚類分析

對沒有 "標記" 的數據進行分類 - 聚類分析監控

降維處理

特徵提取  

信用卡的評級和人的身高如何關係?

特徵壓縮  

PCA, 以下圖這種二維的特徵表示呈現出一種一維的線性表現, 這時可進行特徵壓縮

在儘可能少損失特徵信息的狀況下, 將高維的特徵向量壓縮成低緯的特徵向量, 大大提升效率並且不會下降質量

方即可視化

 高維有點很差處理, 降維天然容易理解

異常檢測

以下圖中的兩個紅點就很不適合總體的狀態, 所以檢測出後進行干預便可

 

半監督學習

給機器的訓練數據一部分有 "標記" 或者 "答案", 另外一部分沒有

在現實中更常見, 各類緣由都會產生標記的缺失

加強學習

 

 無人駕駛, 機器人等應用場景

機器學習方法的其餘分類

批量學習 - Batch Learning

進行一個批次的數據樣本進行學習以及辨識, 訓練出的算法線上投入使用

不會對新的數據樣原本更新本身的學習能力, 運算識別能力基於最初的效率和質量

優勢  簡單

如何適應環境變化 ?   - 定時從新批量學習

缺點  每次從新批量學習, 運算量巨大, 某些環境變化快的狀況下, 基本無望

在線學習 - Online Learning

進行一個批次的數據樣本進行學習以及辨識, 訓練出的算法線上投入使用

會對新的數據樣原本更新本身的學習能力, 運算識別能力會基於最初的版本不斷的自動優化提高適應當前的樣本情景

優勢  及時反映新的環境變化

新數據帶來很差的變化 ?   - 增強對數據的監控

其餘  也適用於數據量巨大, 徹底沒法批量學習的環境

參數學習

假設存在某個參數, 大量的數據集都是基於此參數存在的一個具體實例

分析數據集自己就是爲了得到參數

 

非參數學習

和機器學習相關的哲學思考

數據即算法?

算法爲王?

如何選擇機器學習算法?

 

 奧卡姆剃刀

沒有免費午飯定律

其餘思考

 

相關文章
相關標籤/搜索