NLP 文本預處理

1、不同類別文本量統計,類別不平衡差異   2、文本長度統計   3、文本處理,比如文本語料中簡體與繁體共存,這會加大模型的學習難度。因此,他們對數據進行繁體轉簡體的處理。     同時,過濾掉了對分類沒有任何作用的停用詞,從而降低了噪聲。   4、上文提到訓練數據中,存在嚴重的樣本不均衡問題,如果不對該問題做針對性的處理,則會嚴重製約模型效果指標的提升。        通過對數據進行了大量的分析
相關文章
相關標籤/搜索