發現兩款不錯的爬蟲框架,極力推薦下:php
phpspider
一款優秀的PHP開發蜘蛛爬蟲git
官方下載地址:https://github.com/owner888/phpspidergithub
官方開發手冊:https://doc.phpspider.org/正則表達式
QueryList
使用jQuery選擇器來作採集,告別複雜的正則表達式;QueryList具備jQuery同樣的DOM操做能力、Http網絡操做能力、亂碼解決能力、內容過濾能力以及可擴展能力;瀏覽器
能夠輕鬆實現諸如:模擬登錄、僞造瀏覽器、HTTP代理等意複雜的網絡請求;擁有豐富的插件,支持多線程採集以及使用PhantomJS採集JavaScript動態渲染的頁面。網絡
官方下載地址:https://github.com/jae-jae/QueryList多線程
官方開發手冊:https://doc.querylist.cc/框架