PySpark NaiveBayes算法之中文文本分類測試

時間 2019-12-04

標籤 pyspark naivebayes 算法之中文本分類測試简体版

原文原文鏈接

假設如今有N行文本，每行文本的第一列已經打好標籤， Y 或 N，用於標識該行文本是否包含敏感詞彙；第二列以後的每一列是對某些句子或文本進行中文分詞以後的詞彙。好比python N 樸素貝葉斯算法是生成模型中最經典分類算法之一 Y 這是一條包含色情的語句咱們如今用pyspark結合NaiveBayes分類算法來進行訓練和測試，這個過程大概包括：web 詞條轉換成特徵向量統

>>阅读原文<<