向量空間模型(VSM)在文檔相似度計算上的簡單介紹

http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx 向量空間模型(VSM:Vector space model)是最常用的相似度計算模型,在自然語言處理中有着廣泛的應用,這裏簡單介紹一下其在進行文檔間相似度計算時的原理。 假設共有十個詞:w1,w2,......,w10,而共有三篇文章,d1,d2和d3。統計所得的詞頻表(杜撰
相關文章
相關標籤/搜索