Crawler 不須要寫代碼的爬蟲 不須要寫正則的爬蟲

Crawler V1.0.0

  1. 代碼尚未優化java

  2. 框架結構很簡單node

  3. 部分功能須要大家給我需求,我後期添加測試git

操做指南

命令:java -jar Crawler.jar -[option]
    -v  爬蟲的版本信息
    -h  爬蟲的幫助文檔
    -ct [url]  爬蟲爬取一個網站測試 URL:測試的URL地址
    -cw [url] [k,v] 測試信息抽取 | URL:測試的URL | [k,v] title,div[class=title] 若是有多個參數,使用#隔開
    -ci [urllist] [k,v] <InputResult> 把抽取的信息規則保存xml中,能夠使用SQL工具的導入嚮導導入到數據庫或者轉成其餘格式| <InputResult> 保存結
果目錄
    -cl [url] [k,v] <InputUrllist> 把某URL的列表URL保存到文件中,能夠用ci進行深刻爬取

E.g 例子

一、-ci URL文件 爬蟲規則 輸出路徑數據庫

URL文件

二、執行java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml框架

執行結果

而後咱們能夠使用SQL導入嚮導,用xml導入的方式,而後又能夠轉換爲XML、TXT、EXCEL、WORD等多種格式。Navicat工具等分佈式

三、-cl命令就是用來生成urllist.txt 而後執行ci命令便可工具

個人郵箱344892053@qq.com BUG直接ISS或者郵件,你把你的需求告訴我,我來完善,我本身手頭有一堆還沒完善。測試

已經完成的:優化

一、URL格式化,部分網站的URL以"/" "./" "../" "//" 這些已經解決了網站

二、HTTP代理接口,有了 尚未加

三、自定義UA和Cookie登陸 也有了,沒有加

四、JDBC以前有,感受沒有xml導入的快,是個累贅 刪除了

五、預留了個性化工具,批量提取EMail、QQ、手機號等

六、給SQLMAP作了接口,可在後期實現自動化注入測試和XSS測試

七、能夠給Nutch結合上

八、還有問題給我提,我記記,而後慢慢完善。代碼是開源 JavaGUI你懂

PS:使用者必需要有Java運行時環境


如今的功能可與Shell DOS命令結合:定時爬蟲、分佈式爬蟲,能夠自由組合

OSchina:http://git.oschina.net/puguoan/Crawler


命令已經改變了許多,請看Git中的說明

相關文章
相關標籤/搜索