SeimiCrawler 2.0版本變更介紹

  • 完美支持SpringBoot,能夠盡情的集成SpringBoot現有生態,demo參考git

  • 回調函數支持方法引用,設置起來更天然github

push(Request.build(s.toString(),Basic::getTitle));
  • 非SpringBoot模式全局配置項經過SeimiConfig進行配置,包括 Redis集羣信息,SeimiAgent信息等,SpringBoot模式則經過SpringBoot標準模式配置

常規模式:redis

SeimiConfig config = new SeimiConfig();
config.setSeimiAgentHost("127.0.0.1");
//config.redisSingleServer().setAddress("redis://127.0.0.1:6379");
Seimi s = new Seimi(config);
s.goRun("basic");

SpringBoot模式,在application.properties中配置spring

seimi.crawler.enabled=true
# 指定要發起start請求的crawler的name
seimi.crawler.names=basic,test

seimi.crawler.seimi-agent-host=xx
seimi.crawler.seimi-agent-port=xx

#開啓分佈式隊列
seimi.crawler.enable-redisson-queue=true
#自定義bloomFilter預期插入次數,不設置用默認值 ()
#seimi.crawler.bloom-filter-expected-insertions=
#自定義bloomFilter預期的錯誤率,0.001爲1000個容許有一個判斷錯誤的。不設置用默認值(0.001)
#seimi.crawler.bloom-filter-false-probability=
  • 分佈式隊列改用Redisson實現,底層依舊爲redis,去重引入BloomFilter以提升空間利用率,一個線上的BloomFilter調參模擬器地址app

  • JDK要求 1.8+分佈式

相關文章
相關標籤/搜索