基於DF的Tokenizer分詞

時間 2021-01-18

原文原文鏈接

Tokenizer分詞進行文本分析前，對文本中句子進行分詞我們處理的第一步。大家都是Spark的機器學習庫分爲基於RDD和基於DataFrame的庫，由於基於RDD的庫在Spark2.0以後都處於維護狀態，我們這裏講的分詞就是基於Spark的Dataframe的。主要是講解兩個類Tokenizer和RegexTokenizer的使用。 1 首先準備數據導包 import org.apache.

>>阅读原文<<