NLP系列 4. 文本表示

詞袋模型——離散、高維、稀疏 基本介紹 詞袋模型是一種很基礎的文本表示模型。 通俗的理解就是把一段文本看做一個袋子,並且忽略詞出現的順序。具體而言,就是將文本以詞爲單位切分開,每篇文章可以表示爲一個長向量,向量中的每一維代表一個單詞,而其權重反映了這個詞的重要程度,常用前面博客中所敘述的TF-IDF計算權重。 完全忽略詞的出現順序也不是很好,詞與詞之間的有機組合方纔構成了一段文本的語義,這時候也常
相關文章
相關標籤/搜索