gensim

時間 2021-01-17

原文原文鏈接

訓練預料的預處理訓練語料的預處理指的是將文檔中原始的字符文本轉換成Gensim模型所能理解的稀疏向量的過程。通常，我們要處理的原生語料是一堆文檔的集合，每一篇文檔又是一些原生字符的集合。在交給Gensim的模型訓練之前，我們需要將這些原生字符解析成Gensim能處理的稀疏向量的格式。我們需要先對原始的文本進行分詞、去除停用詞等操作，得到每一篇文檔的特徵列表。content_clean就是若干個