達觀杯文本處理比賽(二)

針對文本預處理問題,我們經常用到幾個常見的語言模型,這裏我就不做過多的介紹,如果大家想了解可以參考我的這篇博客。 接下來本文主要纔去用了Word2Vec模型進行文本預處理。 因爲我的電腦內存只有八G,不能一下處理所有的數據,我採用了分批次訓練的方法,先把文件切成小文件,然後依次去取,採用生成器的方法,每次讀完就釋放內存。 訓練詞向量
相關文章
相關標籤/搜索