文章相似度與聚類(一種簡單高效的算法)

算法思想:將文章映射到一個n維向量v[],將向量的值二值化爲0或1 。用向量a和向量b表示兩篇文章,a和b同時爲1的位數記爲 S1(對爲1的位求交集),a和b至少一個爲1的位數記爲S2(對爲1的位求並集).相似度即爲S1/S2. 重點在於如何將文章用一個向量表示。   主要計算流程如下:                                   爲了便於存儲,將448維的0-1向量用32
相關文章
相關標籤/搜索