對於爬蟲框架自己來講,都是很優秀的,說那個更好,不如說那個更適合公司的業務需求。好比javaweb項目中須要某些網站的金融系列新聞,得天天定時去抓取一些數據,你就能夠考慮WebMagic框架,可以輕鬆的將爬蟲代碼邏輯模塊化到項目中,毫無違和感。固然也能夠是別的框架,只要合適就好(以上爬蟲框架就不介紹了,真要說說,估計得長篇大論了.....能夠查閱相關資料進行詳細的瞭解)。java
這些開源的爬蟲框架大都是把複雜的問題解決掉,而後封裝,在以後就是咱們用的很簡單、方便,沒必要考慮那些URL去重、代理、線程池管理等等問題,固然建議看看源碼,多想一想他們的設計思想以及實現邏輯。python
咱們在之前項目中用的爬蟲框架是java語言的WebMagic和python語言的PySpider。普通java爬蟲項目中均可以多多考慮WebMagic和WebCollector絕對夠用(反正用啥都得考慮動態js抓取,圖片驗證碼識別等等那些反爬蟲機制,這必定是個持久戰,哈哈),上手簡單易擴展,注重業務開發就好。若是大型分佈式、業務夠複雜、需求點夠多、數據夠龐大下的估計用哪一個框架也得進行二次擴展了。因此選那個框架沒必要那麼糾結。web
另外搞爬蟲不得不推薦python了,易學,語法簡單,一個簡單的爬蟲程序可能半個小時就搞定了。雖然在調試上很費時間,可是當有必定經驗了,不少問題就能夠規避掉或者bug定位很快。固然也有痛點,可是這些痛點對於整個項目成原本說徹底能夠接受。框架