NLP 文本預處理

時間 2021-07-11

原文原文鏈接

1、不同類別文本量統計，類別不平衡差異 2、文本長度統計 3、文本處理，比如文本語料中簡體與繁體共存，這會加大模型的學習難度。因此，他們對數據進行繁體轉簡體的處理。同時，過濾掉了對分類沒有任何作用的停用詞，從而降低了噪聲。 4、上文提到訓練數據中，存在嚴重的樣本不均衡問題，如果不對該問題做針對性的處理，則會嚴重製約模型效果指標的提升。通過對數據進行了大量的分析