牛客網刷題筆記(二)機器學習

各類分類方法
  • 二分類:每一個分類器只能把樣本分爲兩類。這個分類器學習過程就是解一個基於正負二分類推導而來的一個最優規劃問題(對偶問題),要解決多分類問題 就要用決策樹把二分類的分類器級聯算法

  • 層次聚類: 建立一個層次等級以分解給定的數據集。此方法分爲自上而下(分解)和自下而上(合併)兩種操做方式。bootstrap

  • K-中心點聚類:挑選實際對象來表明簇,每一個簇使用一個表明對象,它是圍繞中心點劃分的一種規則。dom

  • 迴歸分析:處理變量之間具備相關性的一種統計方法。函數

  • 結構分析: 結構分析法是在統計分組的基礎上,計算各組成部分所佔比重,進而分析某一整體現象的內部結構特徵、整體的性質、整體內部結構依時間推移而表現出的變化規律性的統計方法。結構分析法的基本表現形式,就是計算結構指標。工具

  • 多分類問題: 針對不一樣的屬性訓練幾個不一樣的弱分類器,而後將它們集成爲一個強分類器。學習

經常使用的文本分類的特徵計算方法
  • 卡方檢驗值:CHI(Chi-square) 卡方檢驗法優化

    利用了統計學中的"假設檢驗"的基本思想:首先假設特徵詞與類別之間是不相關的。若是利用CHI分佈計算出的檢驗值偏離閾值越大,那麼更有信心否認原假設,接受原假設的備則假設:特徵詞與類別有着很高的關聯度。spa

  • 互信息:MI(Mutual Information) 互信息法.net

    互信息法用於衡量特徵詞與文檔類別直接的信息量。若是某個特徵詞的頻率很低,那麼互信息得分就會很大,所以互信息法傾向"低頻"的特徵詞;相對的詞頻很高的詞,得分就會變低,若是這詞攜帶了很高的信息量,互信息法就會變得低效。rest

  • 信息增益:(Information Gain) 信息增益法

    經過某個特徵詞的缺失與存在的兩種狀況下,語料中先後信息的增長,衡量某個特徵詞的重要性。

  • DF:(Document Frequency) 文檔頻率

    DF:統計特徵詞出現的文檔數量,用來衡量某個特徵詞的重要性。

  • WLLR:(Weighted Log Likelihood Ration)加權對數似然

  • WFO:(Weighted Frequency and Odds)加權頻率和可能性

    注:主成分分析法不是文本分類特徵選擇算法。

核方法

核方法kernel methods (KMs)是一類模式識別的算法。其目的是找出並學習一組數據中的相互的關係。用途較廣的核方法有支持向量機、高斯過程等。

核方法是解決非線性模式分析問題的一種有效途徑,其核心思想是:首先,經過某種非線性映射將原始數據嵌入到合適的高維特徵空間;而後,利用通用的線性學習器在這個新的空間中分析和處理模式。

支持向量機

SVM,全稱是support vector machine,中文名叫支持向量機。SVM是一個面向數據的分類算法。是一類按監督學習方式對數據進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面,從而將不一樣的數據分隔開。

SVM使用鉸鏈損失函數計算經驗風險並在求解系統中加入了正則化項以優化結構風險,是一個具備稀疏性和穩健性的分類器。SVM能夠經過核方法進行線性分類,是常見的核學習方法之一。

經驗風險描述了分類器所給出的分類結果的準確程度;結構風險描述了分類器自身的穩定程度,複雜的分類器容易產生過擬合,所以是不穩定的。

LR和SVM的聯繫與區別?

聯繫:

  • LR和SVM均可以處理分類問題,且通常都用於處理線性二分類問題(在改進的狀況下能夠處理多分類問題)

  • 兩個方法均可以增長不一樣的正則化項,如L一、L2等等。因此在不少實驗中,兩種算法的結果是很接近的。

區別:

  • LR是參數模型,SVM是非參數模型。

  • 從目標函數來看,區別在於邏輯迴歸採用的是Logistical Loss,SVM採用的是hinge loss.這兩個損失函數的目的都是增長對分類影響較大的數據點的權重,減小與分類關係較小的數據點的權重。

  • SVM的處理方法是隻考慮Support Vectors,也就是和分類最相關的少數點,去學習分類器。而邏輯迴歸經過非線性映射,大大減少了離分類平面較遠的點的權重,相對提高了與分類最相關的數據點的權重。

  • 邏輯迴歸相對來講模型更簡單,好理解,特別是大規模線性分類時比較方便。而SVM的理解和優化相對來講複雜一些,SVM轉化爲對偶問題後,分類只須要計算與少數幾個支持向量的距離,這個在進行復雜核函數計算時優點很明顯,可以大大簡化模型和計算。

  • Logic 能作的 SVM能作,但可能在準確率上有問題,SVM能作的Logic有的作不了。

    答案來源:https://blog.csdn.net/timcompp/article/details/62237986

曼哈頓距離和歐氏距離

曼哈頓距離:在歐幾里德空間的固定直角座標系上兩點所造成的線段對軸產生的投影的距離總和。

歐式距離:兩點之間的直線距離。

 

集成學習

集成學習是將多個模型進行組合來解決單一的預測問題。它的原理是生成多個分類器模型,各自獨立地學習並做出預測。這些預測最後結合起來獲得預測結果,所以和單獨分類器的結果相比,結果同樣或更好。

bagging就是一種集成學習用來提升學習算法準確度的方法主要思想:

  • 給定一個弱學習算法,和一個訓練集;

  • 單個弱學習算法準確率不高;

  • 將該學習算法使用屢次,得出預測函數序列,進行投票;

  • 最後結果準確率將獲得提升。

隨機森林

隨機森林是一個集成工具,它使用觀測數據的子集來創建一個決策樹。它創建多個這樣的決策樹,而後將它們合併在一塊兒以得到更準確更準確和穩定的預測。這樣作最直接的事實是,在這一組獨立的預測中,用投票方式獲得最高投票結果,這個比單獨使用最好模型預測的結果要好。

兩種算法:

RandomForest algorithm :

樣本提取時容許replacement(a bootstrap sample),在隨機選取的部分(features上進行劃分。scikit-learn經過平均每一個分類器的預測機率(averaging their probabilistic prediction)來生成最終結果。

Extremely Randomized Trees :

有兩個class,分別處理分類和迴歸,默認使用全部樣本,但劃分時features隨機選取部分。

相關文章
相關標籤/搜索