gensim 理論篇

gensim 是 Radim Rehurek 寫的一個用來處理文本相似度的 python 庫。可以很方便的用 tfidf,LDA,LSA,word2vec 等模型,涵蓋了 NLP 裏常見的詞袋模型,主題模型,詞嵌入等。下面簡單介紹一下這些概念。 Vector Space model 在自然語言處理中,我們經常需要表示一個文檔。一種常見的做法是寫成向量的形式,比如直接統計一下該文章的詞頻,那麼向量的
相關文章
相關標籤/搜索