1、python爬蟲框架
一些爬蟲項目的半成品
2、常見python爬蟲框架
(1)
Scrapy:很強大的爬蟲框架,能夠知足簡單的頁面爬取(好比能夠明確獲知url pattern的狀況)。用這個框架能夠輕鬆爬下來如亞馬遜商品信息之類的數據。可是對於稍微複雜一點的頁面,如weibo的頁面信息,這個框架就知足不了需求了。
(2)
Crawley: 高速爬取對應網站的內容,支持關係和非關係數據庫,數據能夠導出爲JSON、XML等
(3)
Portia:可視化爬取網頁內容
(4)
newspaper:提取新聞、文章以及內容分析
(5)
python-goose:java寫的文章提取工具
(6)
Beautiful Soup:名氣大,整合了一些經常使用爬蟲需求。缺點:不能加載JS。
(7)
mechanize:優勢:能夠加載JS。缺點:文檔嚴重缺失。不過經過官方的example以及人肉嘗試的方法,仍是勉強能用的。
(8)
selenium:這是一個調用瀏覽器的driver,經過這個庫你能夠直接調用瀏覽器完成某些操做,好比輸入驗證碼。
(9)
cola:一個分佈式爬蟲框架。項目總體設計有點糟,模塊間耦合度較高。