PySpark NaiveBayes算法之中文文本分類測試

假設如今有N行文本,每行文本的第一列已經打好標籤, Y 或 N, 用於標識該行文本是否包含敏感詞彙;第二列以後的每一列是對某些句子或文本進行中文分詞以後的詞彙。好比python N 樸素貝葉斯算法 是 生成模型 中 最經典 分類算法 之一 Y 這是 一條 包含 色情 的 語句 咱們如今用pyspark結合NaiveBayes分類算法來進行訓練和測試,這個過程大概包括:web 詞條轉換成特徵向量 統
相關文章
相關標籤/搜索