達觀杯文本處理比賽（二）

時間 2021-01-15

原文原文鏈接

針對文本預處理問題，我們經常用到幾個常見的語言模型，這裏我就不做過多的介紹，如果大家想了解可以參考我的這篇博客。接下來本文主要纔去用了Word2Vec模型進行文本預處理。因爲我的電腦內存只有八G，不能一下處理所有的數據，我採用了分批次訓練的方法，先把文件切成小文件，然後依次去取，採用生成器的方法，每次讀完就釋放內存。訓練詞向量

>>阅读原文<<