牛客網刷題筆記（二）機器學習

時間 2019-11-09

標籤筆記機器學習简体版

原文原文鏈接

二分類：每一個分類器只能把樣本分爲兩類。這個分類器學習過程就是解一個基於正負二分類推導而來的一個最優規劃問題（對偶問題），要解決多分類問題就要用決策樹把二分類的分類器級聯。算法
層次聚類： 建立一個層次等級以分解給定的數據集。此方法分爲自上而下（分解）和自下而上（合併）兩種操做方式。bootstrap
K-中心點聚類：挑選實際對象來表明簇，每一個簇使用一個表明對象，它是圍繞中心點劃分的一種規則。dom
迴歸分析：處理變量之間具備相關性的一種統計方法。函數
結構分析： 結構分析法是在統計分組的基礎上，計算各組成部分所佔比重，進而分析某一整體現象的內部結構特徵、整體的性質、整體內部結構依時間推移而表現出的變化規律性的統計方法。結構分析法的基本表現形式，就是計算結構指標。工具
多分類問題： 針對不一樣的屬性訓練幾個不一樣的弱分類器，而後將它們集成爲一個強分類器。學習

卡方檢驗值：CHI(Chi-square) 卡方檢驗法優化

利用了統計學中的"假設檢驗"的基本思想：首先假設特徵詞與類別之間是不相關的。若是利用CHI分佈計算出的檢驗值偏離閾值越大，那麼更有信心否認原假設，接受原假設的備則假設：特徵詞與類別有着很高的關聯度。spa
互信息：MI(Mutual Information) 互信息法.net

互信息法用於衡量特徵詞與文檔類別直接的信息量。若是某個特徵詞的頻率很低，那麼互信息得分就會很大，所以互信息法傾向"低頻"的特徵詞；相對的詞頻很高的詞，得分就會變低，若是這詞攜帶了很高的信息量，互信息法就會變得低效。rest
信息增益：(Information Gain) 信息增益法

經過某個特徵詞的缺失與存在的兩種狀況下，語料中先後信息的增長，衡量某個特徵詞的重要性。
DF：(Document Frequency) 文檔頻率

DF:統計特徵詞出現的文檔數量，用來衡量某個特徵詞的重要性。
WLLR：(Weighted Log Likelihood Ration)加權對數似然
WFO：（Weighted Frequency and Odds）加權頻率和可能性

注：主成分分析法不是文本分類特徵選擇算法。

核方法kernel methods (KMs)是一類模式識別的算法。其目的是找出並學習一組數據中的相互的關係。用途較廣的核方法有支持向量機、高斯過程等。

核方法是解決非線性模式分析問題的一種有效途徑，其核心思想是：首先，經過某種非線性映射將原始數據嵌入到合適的高維特徵空間；而後，利用通用的線性學習器在這個新的空間中分析和處理模式。

SVM，全稱是support vector machine，中文名叫支持向量機。SVM是一個面向數據的分類算法。是一類按監督學習方式對數據進行二元分類的廣義線性分類器，其決策邊界是對學習樣本求解的最大邊距超平面，從而將不一樣的數據分隔開。

SVM使用鉸鏈損失函數計算經驗風險並在求解系統中加入了正則化項以優化結構風險，是一個具備稀疏性和穩健性的分類器。SVM能夠經過核方法進行線性分類，是常見的核學習方法之一。

經驗風險描述了分類器所給出的分類結果的準確程度；結構風險描述了分類器自身的穩定程度，複雜的分類器容易產生過擬合，所以是不穩定的。

LR和SVM的聯繫與區別？

聯繫：

區別：

LR是參數模型，SVM是非參數模型。
從目標函數來看，區別在於邏輯迴歸採用的是Logistical Loss，SVM採用的是hinge loss.這兩個損失函數的目的都是增長對分類影響較大的數據點的權重，減小與分類關係較小的數據點的權重。
SVM的處理方法是隻考慮Support Vectors，也就是和分類最相關的少數點，去學習分類器。而邏輯迴歸經過非線性映射，大大減少了離分類平面較遠的點的權重，相對提高了與分類最相關的數據點的權重。
邏輯迴歸相對來講模型更簡單，好理解，特別是大規模線性分類時比較方便。而SVM的理解和優化相對來講複雜一些，SVM轉化爲對偶問題後,分類只須要計算與少數幾個支持向量的距離,這個在進行復雜核函數計算時優點很明顯,可以大大簡化模型和計算。
Logic 能作的 SVM能作，但可能在準確率上有問題，SVM能作的Logic有的作不了。

答案來源：https://blog.csdn.net/timcompp/article/details/62237986