2019秋招面試題-機器學習部分

1、TF-IDF

有不少不一樣的數學公式能夠用來計算TF-IDF。這邊的例子以上述的數學公式來計算。詞頻 (TF) 是一詞語出現的次數除以該文件的總詞語數。假如一篇文件的總詞語數是100個,而詞語「母牛」出現了3次,那麼「母牛」一詞在該文件中的詞頻就是3/100=0.03。一個計算文件頻率 (IDF) 的方法是文件集裏包含的文件總數除以測定有多少份文件出現過「母牛」一詞。因此,若是「母牛」一詞在1,000份文件出現過,而文件總數是10,000,000份的話,其逆向文件頻率就是 lg(10,000,000 / 1,000)=4。最後的TF-IDF的分數爲0.03 * 4=0.12。html


某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,能夠產生出高權重的TF-IDF。所以,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語。算法

2、分類和迴歸的損失函數

https://www.cnblogs.com/houjun/p/8956384.html網絡

分類:函數

一、 0-1損失 (zero-one loss).net

二、感知損失3d

三、cross entropyhtm

四、Logistic lossblog

 

 

*********************************************************************ci

迴歸:get

http://www.javashuo.com/article/p-pozeomef-gz.html

MSE: Mean Squared Error 
均方偏差:是指參數估計值與參數真值之差平方的指望值; 

RMSE 
均方根偏差:是均方偏差的算術平方根

MAE :Mean Absolute Error 
平均絕對偏差是絕對偏差的平均值 
平均絕對偏差能更好地反映預測值偏差的實際狀況.

 

SVM損失函數:hinge損失+w2正則

adaboost:指數損失

3、如何避免陷入鞍點(局部最小)

(一)以多組不一樣參數值初始化多個神經網絡,去其中偏差最小的做爲結果

(二)使用「模擬退火」技術

  模擬退火在每一步都以必定的機率接受比當前解更差的結果,從而有助於跳出局部最小值。在每次迭代過程當中,接受’「次優解」的機率要隨着時間的推移而逐漸下降,從而保證算法穩定。

(三)使用隨機梯度降低

  每次隨機選取一個樣本進行梯度降低,在梯度降低時加入了隨機因素。即使陷入了局部最小點,它計算出的梯度可能仍不爲零,這樣就有機會跳出局部最小繼續搜索。

相關文章
相關標籤/搜索