機器學習筆記(一)----基本概念

好記性不如爛筆頭,打算以博客連載的方式把最近機器學習的一些學習筆記記下來,機器學習涉及的知識點不少,時間一長很容易遺忘,寫在博客上也方便本身隨時查閱及複習。學習筆記偏重實用工程,儘可能不涉及複雜的數學推導。網絡

 

機器學習分類
      -- 監督學習:訓練數據中帶有標記(分類、迴歸);機器學習

      -- 無監督學習:訓練數據中無標記(聚類、異常檢測、密度分析);性能

      -- 半監督學習:訓練數據中帶有少許標記(分類、迴歸);學習

      -- 強化學習:經過狀態空間的大量試錯學習達成最佳決策(決策);測試

      -- 深度學習:利用多層神經網絡進行監督、無監督或是強化學習的方法(分類、迴歸、聚類)。3d

數據劃分
      -- 留出法:直接將數據集D劃分爲兩個互斥的集合,一個集合做爲訓練集S,另外一個做爲測試機T。blog

      -- 交叉驗證法:將數據集D劃分爲k個大小相同的互斥子集,每次用k-1個子集做爲訓練集,餘下的做爲測試集,可進行k次訓練和驗證,最後取測試結果的均值。深度學習

      -- 自助法:有m個樣本的數據集D,每次隨機從D中挑選一個樣本放入D‘,再把此樣本放回D中,重複執行m次後,獲得訓練數據集D’。約有1/3的數據沒在訓練數據中出現過,用於包外估計。(數據集較小時使用效果較好)博客

模型評估
      泛化能力:指模型對未知數據的預測能力。數學

                -- 泛化偏差:誤差、方差、噪聲之和。

                -- 過擬合:模型在訓練及上表現很好,但在未知數據上不能很好的預測。

                -- 欠擬合:模型在訓練集和測試集上都不能很好的預測。

     

      性能度量指標:

                -- 均方偏差:m個樣本的方差的平均數,均方偏差小的模型性能好,主要用於迴歸。

 

 

                -- 錯誤率:分類錯誤的樣本佔樣本總數的比例。

                -- 精度:分類正確的樣本佔樣本總數的比例。

                -- 查準率:真正例樣本數(TP)和預測結果是正例的樣本數(TP(真正例數)+FP(假正例數))的比值。

 

                -- 查全率(召回率):真正例樣本數(TP)和真實正例樣本數(TP(真正例數)+FN(假反例數))的比值。

 

                -- P-R圖:以查全率作x軸,查準率作y軸的平面圖。判斷模型優劣的兩種方式:一、平衡點(查全率=查準率時的取值)更大的性能更好;二、曲線沒有交叉的狀況下,被「包住」的曲線模型性能弱於外側的模型,以下圖,A模型優於C模型。

 

                 -- 混淆矩陣:用在分類問題中的NxN矩陣,N爲分類的個數。以下圖貓、狗、兔子的三分類系統,每一列表明預測值,每一行表明實際值,對角線兩邊的都是預測錯誤的,從混淆矩陣中能夠很直觀地發現問題在哪裏。

 

                 -- ROC和AUC:ROC(受試者工做特徵曲線)以假正例率爲x軸,真正例率爲y軸,AUC是ROC曲線下的面積,面積越大分類效果越好(真正例率越高,假正例率越低越好)。

 

      誤差(Bias):反映的是模型在樣本上的輸出與真實值之間的偏差,即模型自己的精準度,高誤差,即爲欠擬合。

      方差(Variance):反映的是一樣大小的訓練集的變更致使的學習性能的波動,即刻畫了數據擾動所形成的影響,即模型的穩定性。高方差,即爲過擬合。      模型複雜度和誤差、方差的關係以下圖,隨着模型複雜度增大,誤差減少,方差變大,預測錯誤率在模型複雜度到達必定程度後,反而會增大,誤差和方差從某種程度上說是一對矛盾體,很難作到誤差和方差都很低,只能從誤差、方差和模型複雜度中找到一個平衡點。

相關文章
相關標籤/搜索