有不少不一樣的數學公式能夠用來計算TF-IDF。這邊的例子以上述的數學公式來計算。詞頻 (TF) 是一詞語出現的次數除以該文件的總詞語數。假如一篇文件的總詞語數是100個,而詞語「母牛」出現了3次,那麼「母牛」一詞在該文件中的詞頻就是3/100=0.03。一個計算文件頻率 (IDF) 的方法是文件集裏包含的文件總數除以測定有多少份文件出現過「母牛」一詞。因此,若是「母牛」一詞在1,000份文件出現過,而文件總數是10,000,000份的話,其逆向文件頻率就是 lg(10,000,000 / 1,000)=4。最後的TF-IDF的分數爲0.03 * 4=0.12。html
某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,能夠產生出高權重的TF-IDF。所以,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語。算法
https://www.cnblogs.com/houjun/p/8956384.html網絡
分類:函數
一、 0-1損失 (zero-one loss).net
二、感知損失3d
三、cross entropyhtm
四、Logistic lossblog
*********************************************************************ci
迴歸:get
http://www.javashuo.com/article/p-pozeomef-gz.html
MSE: Mean Squared Error
均方偏差:是指參數估計值與參數真值之差平方的指望值;
RMSE
均方根偏差:是均方偏差的算術平方根
MAE :Mean Absolute Error
平均絕對偏差是絕對偏差的平均值
平均絕對偏差能更好地反映預測值偏差的實際狀況.
SVM損失函數:hinge損失+w2正則
adaboost:指數損失
(一)以多組不一樣參數值初始化多個神經網絡,去其中偏差最小的做爲結果
(二)使用「模擬退火」技術
模擬退火在每一步都以必定的機率接受比當前解更差的結果,從而有助於跳出局部最小值。在每次迭代過程當中,接受’「次優解」的機率要隨着時間的推移而逐漸下降,從而保證算法穩定。
(三)使用隨機梯度降低
每次隨機選取一個樣本進行梯度降低,在梯度降低時加入了隨機因素。即使陷入了局部最小點,它計算出的梯度可能仍不爲零,這樣就有機會跳出局部最小繼續搜索。