文本分類在內容安全應用中的數據不平衡問題

時間 2020-12-24

原文原文鏈接

經過幾十年的發展，文本分類在學術界已經是一個比較成熟的技術，目前自然語言處理（NLP）的研究熱點已經不在文本分類上面。然而，作爲內容安全檢測的一個重要技術手段，文本分類在實際業務中還是有不少的挑戰。首先，內容安全場景對分類的準確度要求極高，不但要求較低的誤判率，任何一個漏判都有可能給產品方帶來嚴重的後果。其次，衆所周知數據不平衡對分類模型的影響很大，而內容安全場景恰恰存在非常嚴重的數據不平衡問題

>>阅读原文<<