【機器學習課程-華盛頓大學】:1 案例研究 1.4 聚類(1)概念描述

根據「檢索感興趣的文檔」引出聚類和相似度的學習。   一、檢索文檔和測量文檔相似度的算法 1、2個問題 (1)如何衡量2個文章的相似度; (2)如何找出另一篇文章。   2、相似度測量 (1)詞袋模型 不考慮詞的順序,只統計每個詞出現的次數。 (2)單詞統計的相似度測量 單詞次數統計,然後進行點乘,作爲相似度測量的結果。 但上述直接點乘容易造成:較長的文章,相似度越高,因此,需要先進行歸一化,再點
相關文章
相關標籤/搜索