簡單的新聞分類算法(流程圖描述)

在指定網頁中,某個關鍵詞出現的次數除以該網頁長度稱爲該關鍵詞在此網頁中的詞頻。對新聞類網頁,存在一組的關鍵詞。因此,每個新聞頁都存在一組詞頻,稱爲該新聞網頁的特徵向量。 設兩個新聞網頁的特徵向量分別爲:甲(a1 ,a2,.... ak)、乙(b1 ,b2,.... bk),則計算這個網頁的相似度時需先計算它們的內積S=a1b1+a2b2+.....+akbk。一般情況下,新聞網頁特徵向量的維數時
相關文章
相關標籤/搜索