Crawler 不須要寫代碼的爬蟲不須要寫正則的爬蟲

時間 2019-11-09

原文原文鏈接

Crawler V1.0.0

命令：java -jar Crawler.jar -[option]

    -v  爬蟲的版本信息

    -h  爬蟲的幫助文檔

    -ct [url]  爬蟲爬取一個網站測試 URL:測試的URL地址

    -cw [url] [k,v] 測試信息抽取 | URL:測試的URL | [k,v] title,div[class=title] 若是有多個參數,使用#隔開

    -ci [urllist] [k,v] <InputResult> 把抽取的信息規則保存xml中,能夠使用SQL工具的導入嚮導導入到數據庫或者轉成其餘格式| <InputResult> 保存結
果目錄

    -cl [url] [k,v] <InputUrllist> 把某URL的列表URL保存到文件中,能夠用ci進行深刻爬取

一、-ci URL文件爬蟲規則輸出路徑數據庫

二、執行java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml框架

而後咱們能夠使用SQL導入嚮導，用xml導入的方式,而後又能夠轉換爲XML、TXT、EXCEL、WORD等多種格式。Navicat工具等分佈式

三、-cl命令就是用來生成urllist.txt 而後執行ci命令便可工具

個人郵箱344892053@qq.com BUG直接ISS或者郵件,你把你的需求告訴我,我來完善,我本身手頭有一堆還沒完善。測試

已經完成的:優化

一、URL格式化,部分網站的URL以"/" "./" "../" "//" 這些已經解決了網站

二、HTTP代理接口,有了尚未加

三、自定義UA和Cookie登陸也有了，沒有加

四、JDBC以前有,感受沒有xml導入的快，是個累贅刪除了

五、預留了個性化工具,批量提取EMail、QQ、手機號等

六、給SQLMAP作了接口,可在後期實現自動化注入測試和XSS測試

七、能夠給Nutch結合上

八、還有問題給我提，我記記，而後慢慢完善。代碼是開源 JavaGUI你懂

PS：使用者必需要有Java運行時環境

如今的功能可與Shell DOS命令結合：定時爬蟲、分佈式爬蟲，能夠自由組合

命令已經改變了許多，請看Git中的說明

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。