機器學習的基本概念理解

  1. 術語理解算法

    示例:機器學習

        對應着數據中的一條記錄(多條記錄構成數據集)。能夠包含標記,也能夠不包含標記ide

    假設一條記錄有多個屬性構成的,則這條記錄就有5維。多個屬性構成的空間叫作屬性空間,樣本空間(示例也能夠叫作樣本)或者輸入空間。每一個屬性都有多個屬性取值,則每條記錄都可以在輸入空間中找到惟一的一個點與之對應,咱們稱這個點爲一個座標向量,所以咱們也把一個示例稱爲一個特徵向量。性能

樣例:學習

    擁有標記信息的示例,則稱爲樣例。測試

模型:spa

    對訓練集(x1,y1),(x2,y2)....(xm,ym)進行學習,創建一個從輸入空間x到輸出空間y的映射f:x可以推 y,言下之意就是可以根據記錄的屬性數推測出記錄的標籤。也就是所謂的輸入空間x推導出輸出空間y的f。ci

預測:數學

    對測試集(xm+1,ym+1),(xm+2,ym+2),...(xm+n,ym+n),進行測試,根據輸入空間x推導出輸出空間y與示例的實際y值進行對比的過程。it

泛化:

    模型適用於新樣本的能力,稱爲泛化能力(泛化能力有強弱之分)。

假設空間:

    每一個樣例它有多個屬性,每一個屬性有多個取值,這些取值之間的組合就構成了假設空間。咱們的目的就是對這個空間進行搜索,從通常到特殊,或是自底向上,從特殊到通常,搜索過程當中能夠不斷刪除與正例不一致的假設,和(與)反例一致的假設。最終將會得到與訓練集一致的假設,這就是咱們學獲得的結果,即模型。也就是說假設空間,咱們學的模型,可能有多個,這個怎麼辦呢?選擇哪一個好了。

    概括偏好:在假設空間學到的模型有多個,每一個模型在面對新樣本的時候會產生不一樣的輸出,機器學習對某種模型的偏好,稱之爲概括偏好。

2.模型評估

    錯誤率:若是在m個樣本中有a個樣本分類錯誤,則錯誤率爲E=a/m

    精度:1-E

    泛化偏差:咱們把模型用於新樣本上產生的偏差,稱爲泛化偏差。

    欠擬合:對於訓練集學習太差,泛化能力很弱,欠擬合問題容易解決。

    過擬合:對於訓練集學習太好,泛化能力很弱,過擬合很難解決。

    泛化偏差的衡量:須要一個測試集來測試學習器對新樣本的判別能力,而後以測試集上的測試偏差,做爲泛化偏差的近似。

    測試集的選取有必定的標準。

    留出法:直接將數據集D,劃分紅訓練集S和測試集T,分層採樣,訓練集中有多少是正樣本的比例,多少負樣本的比例,則測試集中就應該有多少個。通常來講,即使給定訓練集合測試集的樣本比例後,不一樣的數據劃分,也會形成結果的差別。例如500個正例中,有350個爲訓練集正例,150個爲測試集正例,那麼到底以這500箇中,那些正例劃分爲350個呢,不一樣的劃分方法結果也會不同,怎麼辦呢?通常採用隨機劃分,重複進行試驗評估後,去平均值作爲留出法的評估結果。咱們規定通常留出法的比例爲2/3到4/5用於訓練,剩餘的用做測試。

    留一法:就留一個作爲測試,其餘的都作爲訓練。

    交叉驗證法:將數據集劃分爲K個大小類似的互斥子集,都是經過分層採樣,之前k-1個做爲訓練,第k個做爲測試,測試算出第一次結果,在以k-2和最後一個k做爲訓練,以第k-1個做爲測試集,算出第二次結果。....以此類推,屢次算出以後,取其平均值。

    自助法:從數據集中D,抽一個放入D’中,而後在放回D中,在繼續抽一個放入D'中,抽取m個,這個對集成學習等方法會有很大的好處。(利於集成分類器的之間的差別性)

    調參與最終模型:大多數學習算法,都有些參數須要設定,參數配置不一樣,學得模型的性能每每有差異。

    性能度量:    

            對迴歸任務來講,最經常使用的性能度量是均方偏差。

            錯誤率:沒必要多說,前面有

            精度:沒必要多說,前面有

            分類結果的混淆矩陣:TP+FP+TN+FN=測試樣本數。TP+FP=你認爲的正例個數,TP是實際的正例個數。

                                FN+TN=你認爲的反例個數,TN=實際反例個數。

            查準率: 實際的正例個數TP/你認爲的正例個數

            查全率:實際的正例個數TP/你認爲的實際的正例個數+實際的反例個數

相關文章
相關標籤/搜索