機器學習知識點整理(一)

1、特徵工程

 

1.爲何要對特徵作歸一化?算法

 

 

 

 

 

2.什麼是組合特徵?如何處理高維組合特徵?機器學習

 

 

 

 

3.請比較歐式距離與曼哈頓距離?函數

 

 

4.爲何一些場景中使用餘弦類似度而不是歐式距離性能

 

 

5.One-hot的做用是什麼?爲何不直接使用數字做爲表示?學習

One-hot 主要用來編碼類別特徵,即採用啞變量(dummy variables) 對類別進行編碼。它的做用是避免因將類別用數字做爲表示而給函數帶來抖動。直接使用數字會給將人工偏差而致使的假設引入到類別特徵中,好比類別之間的大小關係,以及差別關係等等。測試

2、模型評估

6.在模型評估過程當中,過擬合和欠擬合具體指什麼現象?編碼

過擬合是指模型對於訓練數據擬合呈過當的狀況,反映到評估指標上,就是模型在訓練集上的表現好,可是在測試集和新數據上的表現較差。欠擬合指的是模型在訓練和預測時表現都很差。用模型在數據上的誤差和方差指標來表示就是。欠擬合時候,誤差和方差都比較大,而過擬合時,誤差較小但方差較大。spa

7.設計

 

 

 

8.3d

 

 

 

 9.對於樹形結構爲何不須要歸一化?

決策樹的學習過程本質上是選擇合適的特徵,分裂並構建樹節點的過程;而分裂節點的標準是由樹構建先後的信息增益,信息增益比以及基尼係數等指標決定的。這些指標與當前特徵值的大小自己並沒有關係。

 10.什麼是數據不平衡,如何解決?

數據不平衡主要指的是在有監督機器學習任務中,樣本標籤值的分佈不均勻。這將使得模型更傾向於將結果預測爲樣本標籤分佈較多的值,從而使得少數樣本的預測性能降低。絕大多數常見的機器學習算法對於不平衡數據集都不能很好地工做。
解決方法:
1.  從新採樣訓練集
a.       欠採樣 –減小豐富類的大小來平衡數據集
b.       過採樣 – 增長稀有樣本,經過使用重複,自舉或合成少數類
2.  設計使用不平衡數據集的模型
a.       在代價函數中懲罰稀有類別的錯誤分類。

3、線性迴歸與邏輯迴歸

11.

 

 12.

 

 

 

 13.

 

 

 

 

14.

 

 15.

 4、樸素貝葉斯

1.寫出全機率公式&貝葉斯公式

 

2.樸素貝葉斯爲何「樸素naive」?

3.樸素貝葉斯有沒有超參數能夠調?

 

4.樸素貝葉斯的工做流程是怎樣的? 

 

 

 

 

5.樸素貝葉斯對異常值敏不敏感?

 

 5、集成學習

1.

 

 2.

 

 3.

 

 4.

 

 5.

 

 

 

 6、隨機森林

1.

 

 2.

 

 3.

 

 4.

 

 5.

 

 7、GBDT

1.

 

 

 

2.

 

 3.

 

 

 

 4.

 

 5.

 

 

相關文章
相關標籤/搜索