代碼尚未優化java
框架結構很簡單node
部分功能須要大家給我需求,我後期添加測試git
命令:java -jar Crawler.jar -[option]
-v 爬蟲的版本信息
-h 爬蟲的幫助文檔
-ct [url] 爬蟲爬取一個網站測試 URL:測試的URL地址
-cw [url] [k,v] 測試信息抽取 | URL:測試的URL | [k,v] title,div[class=title] 若是有多個參數,使用#隔開
-ci [urllist] [k,v] <InputResult> 把抽取的信息規則保存xml中,能夠使用SQL工具的導入嚮導導入到數據庫或者轉成其餘格式| <InputResult> 保存結 果目錄
-cl [url] [k,v] <InputUrllist> 把某URL的列表URL保存到文件中,能夠用ci進行深刻爬取
一、-ci URL文件 爬蟲規則 輸出路徑數據庫
二、執行java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml框架
而後咱們能夠使用SQL導入嚮導,用xml導入的方式,而後又能夠轉換爲XML、TXT、EXCEL、WORD等多種格式。Navicat工具等分佈式
三、-cl命令就是用來生成urllist.txt 而後執行ci命令便可工具
個人郵箱344892053@qq.com BUG直接ISS或者郵件,你把你的需求告訴我,我來完善,我本身手頭有一堆還沒完善。測試
已經完成的:優化
一、URL格式化,部分網站的URL以"/" "./" "../" "//" 這些已經解決了網站
二、HTTP代理接口,有了 尚未加
三、自定義UA和Cookie登陸 也有了,沒有加
四、JDBC以前有,感受沒有xml導入的快,是個累贅 刪除了
五、預留了個性化工具,批量提取EMail、QQ、手機號等
六、給SQLMAP作了接口,可在後期實現自動化注入測試和XSS測試
七、能夠給Nutch結合上
八、還有問題給我提,我記記,而後慢慢完善。代碼是開源 JavaGUI你懂
PS:使用者必需要有Java運行時環境
如今的功能可與Shell DOS命令結合:定時爬蟲、分佈式爬蟲,能夠自由組合
OSchina:http://git.oschina.net/puguoan/Crawler
命令已經改變了許多,請看Git中的說明