零基礎入門NLP之新聞分類

數據分析 對賽題有一個大致瞭解之後接下來就是數據分析過程 使用pandas讀取訓練數據和測試數據 訓練數據一共20W條,由label和text兩列構成,label是其所屬類別,text由其文本進行脫敏處理後得到的數字構成 接下來統計句子的長度 可以看出最短句子僅兩個單詞構成,最長句子由55757個單詞構成,大部分句子由1000左右單詞組成 接下來看一下類別分佈情況 類別分佈不均衡,最少類與最多類之
相關文章
相關標籤/搜索