按照網絡爬蟲的的思路:javascript
將工具按照以上分類說明,按照學習路線順序給出參考文章css
requests(必學)html
scrapyhtml5
selenium+chrome + PhantomJS(抓取動態網頁,不推薦)java
Splash(抓取動態網頁,推薦)python
總結:
對於下載器而言,python自帶的urllib就不要花時間去學了,學了就忘,直接requests
能知足大部分測試+抓取需求,進階工程化scrapy
,動態網頁優先找API接口
,若是有簡單加密就破解,實在困難就使用splash渲染
mysql
BeautifulSoup(入門級)git
pyquery (相似jQuery)github
lxmlsql
parsel
scrapy的Selector (強烈推薦, 比較高級的封裝,基於parsel)
總結:
其實解析器學習一個就夠了,其餘都不用學,不少培訓會教你從上到下的學習,我不是很推薦,直接學習scrapy的Selector
就行,簡單、直接、高效
總結:
數據存儲沒有什麼可深究的,按照業務需求來就行,通常快速測試使用MongoDB
,業務使用MySQL
execjs :執行js
Python爬蟲:execjs在python中運行javascript代碼
pyv8: 執行js
mac安裝pyv8模塊-JavaScript翻譯成python
html5lib
1. Python爬蟲:scrapy利用html5lib解析不規範的html文本
本人的一個開源項目:PageParser
https://github.com/mouday/PageParser用於解析網頁,最終實現6行代碼寫爬蟲,能夠貢獻代碼,順便練習網頁解析的能力