MapReduce實現與自定義詞典文件基於hanLP的中文分詞詳解

前言: 文本分類任務的第1步,就是對語料進行分詞。在單機模式下,可以選擇python jieba分詞,使用起來較方便。但是如果希望在Hadoop集羣上通過mapreduce程序來進行分詞,則hanLP更加勝任。 一、使用介紹 hanLP是一個用java語言開發的分詞工具, 官網是 http://hanlp.com/ 。 hanLP創建者提供了兩種使用方式,一種是portable簡化版本,內置了數據
相關文章
相關標籤/搜索