向量空間模型(VSM)算法

(轉載他人 以備自己查閱) 在該方法中,我們把一篇文章抽象成一個向量。     假設向量由n個詞組成,每個詞的權重是kn。假設文章D是你喜歡的文章,那麼     文章 D=(k1,k2,k3,k4,k5.....kn),這是一個多維的向量。     如果維數很多,將來計算起來很麻煩,我們需要降維處理,所謂的降維就是,選出有代表性的特徵詞,這樣就降低了維數。 可以人工選擇。也可以自動選擇,自動選擇的
相關文章
相關標籤/搜索