數學之美:餘弦定理和新聞分類

新聞特徵向量: 和前面一樣,顯然衡量兩個新聞的相似性要根據新聞中的詞的相似性。如果兩個新聞中出現相同的詞較大,相似的可能性就較大。當然這其中的類似於「的」的詞應該佔據較小權重。這就和我們前面提到的度量關鍵詞和網頁相關性問題非常相似。TF-IDF應該是個不錯的算法。 我們應該建立一個字典,然後根據TF-IDF算法對字典中每個詞賦予權重,形成如下特徵向量,向量中每一項代表這個詞對當前文章的貢獻度: 顯
相關文章
相關標籤/搜索