spark集羣使用hanlp進行分佈式分詞操做說明

本篇分享一個使用hanlp分詞的操做小案例,即在spark集羣中使用hanlp完成分佈式分詞的操做,文章整理自【qq_33872191】的博客,感謝分享!如下爲全文:分佈式

分兩步:ide

第一步:實現hankcs.hanlp/corpus.io.IIOAdapteroop

1. public class HadoopFileIoAdapter implements IIOAdapter {spa

2. .net

3.   @Overrideblog

4.    public InputStream open(String path) throws IOException {get

5.        Configuration conf = new Configuration();博客

6.       FileSystem fs = FileSystem.get(URI.create(path), conf);spark

7.        return fs.open(new Path(path));io

8.    }

9. 

10.    @Override

11.   public OutputStream create(String path) throws IOException {

12.        Configuration conf = new Configuration();

13.        FileSystem fs = FileSystem.get(URI.create(path), conf);

14.        OutputStream out = fs.create(new Path(path));

15.        return out;

16.    }

17.  }

 

第二步:修改配置文件。root爲hdfs上的數據包,把IOAdapter改成我們上面實現的類

ok,這樣你就能在分佈式集羣上使用hanlp進行分詞了。

 

整個步驟比較簡單,歡迎各位大神交流探討!

相關文章
相關標籤/搜索