機器學習實戰(三)——NaiveBayes樸素貝葉斯算法郵件分類

樸素貝葉斯分類的原理是條件機率的計算: 在已知先驗機率的條件下,計算後驗機率,後驗機率便是在當前數據條件下屬於分類1或者分類2 的機率,取機率較大的一個爲輸出。 貝葉斯準則很熟悉了,不解釋了,但在這個算法中引入了一個很重要的思想:將文本等數據對象轉化爲向量格式進行計算。 其中包含了:一、正則表達式的運用,python中re庫的運用 二、留存交叉驗證:將樣本一部分用做訓練,一部分用做測試,當將訓練組
相關文章
相關標籤/搜索