自然語言處理實踐(新聞文本分類)——task02

數據分析 句子長度分析 由賽題題目得知,賽題數據中每行句子的字符使用空格進行隔開,所以可以直接統計單詞個數來得到每個句子的長度。總共有20萬行數據,其中數據最長的句子有57921個單詞,數據最短的句子僅有2個單詞。 畫出直方圖如下,可以看到大多句子數據在1500~3000左右 新聞類別分佈 統計每類新聞的樣本個數,畫出直方圖 可以0標籤的新聞數量最多,根據標籤數字的大小依次遞減,可以看出該數據集分
相關文章
相關標籤/搜索