1.爲何要對特徵作歸一化?算法
2.什麼是組合特徵?如何處理高維組合特徵?機器學習
3.請比較歐式距離與曼哈頓距離?函數
4.爲何一些場景中使用餘弦類似度而不是歐式距離性能
5.One-hot的做用是什麼?爲何不直接使用數字做爲表示?學習
One-hot 主要用來編碼類別特徵,即採用啞變量(dummy variables) 對類別進行編碼。它的做用是避免因將類別用數字做爲表示而給函數帶來抖動。直接使用數字會給將人工偏差而致使的假設引入到類別特徵中,好比類別之間的大小關係,以及差別關係等等。測試
6.在模型評估過程當中,過擬合和欠擬合具體指什麼現象?編碼
過擬合是指模型對於訓練數據擬合呈過當的狀況,反映到評估指標上,就是模型在訓練集上的表現好,可是在測試集和新數據上的表現較差。欠擬合指的是模型在訓練和預測時表現都很差。用模型在數據上的誤差和方差指標來表示就是。欠擬合時候,誤差和方差都比較大,而過擬合時,誤差較小但方差較大。spa
7.設計
8.3d
9.對於樹形結構爲何不須要歸一化?
決策樹的學習過程本質上是選擇合適的特徵,分裂並構建樹節點的過程;而分裂節點的標準是由樹構建先後的信息增益,信息增益比以及基尼係數等指標決定的。這些指標與當前特徵值的大小自己並沒有關係。
10.什麼是數據不平衡,如何解決?
數據不平衡主要指的是在有監督機器學習任務中,樣本標籤值的分佈不均勻。這將使得模型更傾向於將結果預測爲樣本標籤分佈較多的值,從而使得少數樣本的預測性能降低。絕大多數常見的機器學習算法對於不平衡數據集都不能很好地工做。
解決方法:
1. 從新採樣訓練集
a. 欠採樣 –減小豐富類的大小來平衡數據集
b. 過採樣 – 增長稀有樣本,經過使用重複,自舉或合成少數類
2. 設計使用不平衡數據集的模型
a. 在代價函數中懲罰稀有類別的錯誤分類。
11.
12.
13.
14.
15.
1.寫出全機率公式&貝葉斯公式
2.樸素貝葉斯爲何「樸素naive」?
3.樸素貝葉斯有沒有超參數能夠調?
4.樸素貝葉斯的工做流程是怎樣的?
5.樸素貝葉斯對異常值敏不敏感?
1.
2.
3.
4.
5.
1.
2.
3.
4.
5.
1.
2.
3.
4.
5.