自研半監督學習算法在短信分類中的實踐

1. 背景 本文僅探討自然語言分類算法。 1)有監督機器學習 所謂有監督,是指給定一組人工標註好的樣本(打好分類標籤的文本),通過機器學習算法訓練模型(比如樸素貝葉斯分類器),然後用訓練好的模型對未知的文本進行分類。 有監督機器學習的準確率受人工標註樣本的數量和質量影響很大。在待分類實體總量較少(比如百萬以下),且邊界較爲清晰(不同分類的實體間相似特徵較少)時,可以達到很好的效果(90%+準確率)
相關文章
相關標籤/搜索