長文本分類的總結

笨妞很少做文本分類,因爲工作中文本分類確實不怎麼用得到,唯一一個項目用到短文本分類,驗證集acc和f1都到90%以上,所以在笨妞印象中文本分類應該是很簡單的分類問題,都不屬於NLP問題。偶然碰到DC競賽中「達觀杯」文本分類大賽,嘗試了一下新聞類文本的分類。其實並沒有那麼簡單。   數據概況 「達觀杯」的主題是19類新聞分類,數據包含4個字段:id(文章索引)、article(字級別文章)、word
相關文章
相關標籤/搜索