數據採集搜索平臺 Gather Platform V0.6

新功能:git

  • 新增ajax網頁渲染器,ajax網頁輕鬆採集;github

  • 升級ES至5.2版本;ajax

  • 修正一些BUG;ide

預編譯版本及相關依賴下載地址: https://pan.baidu.com/s/1i4IoEhB 密碼:v3jm 。

在線文檔地址:https://gsh199449.github.io/gather_platform_pages/搜索引擎

Github地址:https://github.com/gsh199449/spider編碼

碼雲地址:https://git.oschina.net/gsh199449/spider.net

 

Gather Platform 數據抓取平臺是一套基於 Webmagic 內核的,具備 Web 任務配置和任務管理界面的數據採集平臺,一個輕量級的搜索引擎系統。

5分鐘便可部署完畢,半分鐘便可完成一個爬蟲,開始數據採集. 不須要進行任何編碼就能夠完成一個功能強大的爬蟲.

具備如下功能:orm

  • 根據配置的模板進行數據採集索引

  • 對採集的數據進行NLP處理,包括:抽取關鍵詞,抽取摘要,抽取實體詞文檔

  • 在不配置採集模板的狀況下自動檢測網頁正文,自動抽取文章發佈時間

  • 動態字段抽取與靜態字段植入

  • 已抓取數據的管理,包括:搜索,增刪改查,按照新的數據模板從新抽取數據

  • 多數據輸出方式:Elasticsearch、JSON文本,Redis

相關文章
相關標籤/搜索