文本分類在內容安全應用中的數據不平衡問題

經過幾十年的發展,文本分類在學術界已經是一個比較成熟的技術,目前自然語言處理(NLP)的研究熱點已經不在文本分類上面。然而,作爲內容安全檢測的一個重要技術手段,文本分類在實際業務中還是有不少的挑戰。 首先,內容安全場景對分類的準確度要求極高,不但要求較低的誤判率,任何一個漏判都有可能給產品方帶來嚴重的後果。其次,衆所周知數據不平衡對分類模型的影響很大,而內容安全場景恰恰存在非常嚴重的數據不平衡問題
相關文章
相關標籤/搜索