達觀杯文本處理模型實踐

tf-idf+lr 採用前文處理的tf-idf文件進行簡單的模型預測,沒有加入交叉驗證。 代碼如下: 這裏用到了前幾篇文章中處理的數據,用pickle讀取即可,當時之所以分批保存到不同的pickle文件是因爲內存不夠直接存在一個文件中內存報錯,所以選擇了分別存取。 我們可以看到每一個文件被處理成200多萬維度的向量,顯然比較大,後期準備使用pca處理一下(這個想法直接pass掉吧,因爲維度太大了,
相關文章
相關標籤/搜索