文本相似度算法:文本向量化+距離公式

1. 文本向量化 1.1 詞袋模型 詞袋模型,顧名思義,就是將文本視爲一個 「裝滿詞的袋子」 ,袋子裏的詞語是隨便擺放的,沒有順序和語義之分。 1.1.1 詞袋模型的步驟 第一步:構造詞典 根據語料庫,把所有的詞都提取出來,編上序號 第二步:獨熱編碼,D維向量 記詞典大小爲D,那麼每個文章就是一個D維向量:每個位置上的數字表示對應編號的詞在該文章中出現的次數。 1.1.2 詞袋模型的缺點 只統計詞
相關文章
相關標籤/搜索