基於DF的Tokenizer分詞

Tokenizer分詞 進行文本分析前,對文本中句子進行分詞我們處理的第一步。大家都是Spark的機器學習庫分爲基於RDD和基於DataFrame的庫,由於基於RDD的庫在Spark2.0以後都處於維護狀態,我們這裏講的分詞就是基於Spark的Dataframe的。主要是講解兩個類Tokenizer和RegexTokenizer的使用。 1 首先準備數據 導包 import org.apache.
相關文章
相關標籤/搜索