tf2+cnn+中文文本分類優化系列(1)

時間 2021-01-16

原文原文鏈接

1 前言接着上篇關於英文的text-cnn，今天分享一篇基礎級別的中文文本分類實踐練習。數據集是復旦大學開源的文本數據集，label種類爲20，該數據集有點久遠，感興趣可網上搜到。這次文本分類，主要基於字級別+cnn來實現的。相對於詞級別，字級別的優勢就是處理簡單些，不用去考慮分詞錯誤帶來的誤差；缺陷就是，字所帶的語義含義沒詞豐富，此外同樣長度限制下，詞級別處理的文本長度要遠遠大於字級別。但操作