達觀杯文本處理模型實踐

時間 2021-01-20

原文原文鏈接

tf-idf+lr 採用前文處理的tf-idf文件進行簡單的模型預測，沒有加入交叉驗證。代碼如下：這裏用到了前幾篇文章中處理的數據，用pickle讀取即可，當時之所以分批保存到不同的pickle文件是因爲內存不夠直接存在一個文件中內存報錯，所以選擇了分別存取。我們可以看到每一個文件被處理成200多萬維度的向量，顯然比較大，後期準備使用pca處理一下(這個想法直接pass掉吧，因爲維度太大了，