本篇分享一個使用hanlp分詞的操做小案例,即在spark集羣中使用hanlp完成分佈式分詞的操做,文章整理自【qq_33872191】的博客,感謝分享!如下爲全文:分佈式
分兩步:ide
第一步:實現hankcs.hanlp/corpus.io.IIOAdapteroop
1. public class HadoopFileIoAdapter implements IIOAdapter {spa
2. .net
3. @Overrideblog
4. public InputStream open(String path) throws IOException {get
5. Configuration conf = new Configuration();博客
6. FileSystem fs = FileSystem.get(URI.create(path), conf);spark
7. return fs.open(new Path(path));io
8. }
9.
10. @Override
11. public OutputStream create(String path) throws IOException {
12. Configuration conf = new Configuration();
13. FileSystem fs = FileSystem.get(URI.create(path), conf);
14. OutputStream out = fs.create(new Path(path));
15. return out;
16. }
17. }
第二步:修改配置文件。root爲hdfs上的數據包,把IOAdapter改成我們上面實現的類
ok,這樣你就能在分佈式集羣上使用hanlp進行分詞了。
整個步驟比較簡單,歡迎各位大神交流探討!