文本挖掘學習(六) 文檔分類

1.樸素貝葉斯 樸素貝葉斯 = 貝葉斯公式 + 條件獨立假設 拋棄詞條間的關聯,假設各個詞條完全獨立,完全基於詞袋模型進行計算 2.sklearn實現 # 文檔分類 # 樸素貝葉斯 # 從原始語料df中提取出所需的前兩章段落 raw12 = df[df.chap.isin([1,2])] raw12ana = raw12.iloc[list(raw12.txt.apply(len) > 50),
相關文章
相關標籤/搜索