TF-IDF的算法原理

預處理過程中,我們已經把停詞都過濾掉了。如果只考慮剩下的有實際意義的詞,前我們已經講過,顯然詞頻(TF,Term Frequency)較高的詞之於一篇文章來說可能是更爲重要的詞(也就是潛在的關鍵詞)。但這樣又會遇到了另一個問題,我們可能發現在上面例子中,madefortv、california、includ 都出現了2次(madefortv其實是原文中的made-for-TV,因爲我們所選分詞法的
相關文章
相關標籤/搜索