2019秋招面試題-機器學習部分

時間 2019-12-14

標籤面試機器學習部分欄目快樂工作简体版

原文原文鏈接

1、TF-IDF

有不少不一樣的數學公式能夠用來計算TF-IDF。這邊的例子以上述的數學公式來計算。詞頻 (TF) 是一詞語出現的次數除以該文件的總詞語數。假如一篇文件的總詞語數是100個，而詞語「母牛」出現了3次，那麼「母牛」一詞在該文件中的詞頻就是3/100=0.03。一個計算文件頻率 (IDF) 的方法是文件集裏包含的文件總數除以測定有多少份文件出現過「母牛」一詞。因此，若是「母牛」一詞在1,000份文件出現過，而文件總數是10,000,000份的話，其逆向文件頻率就是 lg(10,000,000 / 1,000)=4。最後的TF-IDF的分數爲0.03 * 4=0.12。html

某一特定文件內的高詞語頻率，以及該詞語在整個文件集合中的低文件頻率，能夠產生出高權重的TF-IDF。所以，TF-IDF傾向於過濾掉常見的詞語，保留重要的詞語。算法

2、分類和迴歸的損失函數

https://www.cnblogs.com/houjun/p/8956384.html網絡

分類：函數

一、 0-1損失 (zero-one loss).net

二、感知損失3d

三、cross entropyhtm

四、Logistic lossblog

*********************************************************************ci

迴歸：get

http://www.javashuo.com/article/p-pozeomef-gz.html

MSE: Mean Squared Error
均方偏差：是指參數估計值與參數真值之差平方的指望值;

RMSE
均方根偏差：是均方偏差的算術平方根

MAE :Mean Absolute Error
平均絕對偏差是絕對偏差的平均值
平均絕對偏差能更好地反映預測值偏差的實際狀況.

SVM損失函數：hinge損失+w2正則

adaboost：指數損失

3、如何避免陷入鞍點（局部最小）

（一）以多組不一樣參數值初始化多個神經網絡，去其中偏差最小的做爲結果

（二）使用「模擬退火」技術

　　模擬退火在每一步都以必定的機率接受比當前解更差的結果，從而有助於跳出局部最小值。在每次迭代過程當中，接受’「次優解」的機率要隨着時間的推移而逐漸下降，從而保證算法穩定。

（三）使用隨機梯度降低

　　每次隨機選取一個樣本進行梯度降低，在梯度降低時加入了隨機因素。即使陷入了局部最小點，它計算出的梯度可能仍不爲零，這樣就有機會跳出局部最小繼續搜索。

相關文章

相關標籤/搜索

面試題分享

百面機器學習

圖機器學習

java機器學習

Python機器學習

瀏覽器信息

網站主機教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<