spark集羣使用hanlp進行分佈式分詞操做說明

時間 2019-11-10

標籤 spark 集羣使用 hanlp 進行分佈式分詞說明欄目 Spark 简体版

原文原文鏈接

本篇分享一個使用hanlp分詞的操做小案例，即在spark集羣中使用hanlp完成分佈式分詞的操做，文章整理自【qq_33872191】的博客，感謝分享！如下爲全文：分佈式

分兩步：ide

第一步：實現hankcs.hanlp/corpus.io.IIOAdapteroop

1. public class HadoopFileIoAdapter implements IIOAdapter {spa

2. .net

4. public InputStream open(String path) throws IOException {get

5. Configuration conf = new Configuration();博客

6. FileSystem fs = FileSystem.get(URI.create(path), conf);spark

7. return fs.open(new Path(path));io

8. }

11. public OutputStream create(String path) throws IOException {

12. Configuration conf = new Configuration();

13. FileSystem fs = FileSystem.get(URI.create(path), conf);

14. OutputStream out = fs.create(new Path(path));

15. return out;

16. }

17. }

第二步：修改配置文件。root爲hdfs上的數據包，把IOAdapter改成我們上面實現的類

ok，這樣你就能在分佈式集羣上使用hanlp進行分詞了。

整個步驟比較簡單，歡迎各位大神交流探討！

相關標籤/搜索