python | 爬蟲筆記 - 學習路線

整體學習路徑:
一、學習 Python 包並實現基本的爬蟲過程
二、瞭解非結構化數據的存儲
三、學習scrapy,搭建工程化爬蟲
四、學習數據庫知識,應對大規模數據存儲與提取
五、掌握各類技巧,應對特殊網站的反爬措施
六、分佈式爬蟲,實現大規模併發採集,提高效率
 
· 目標驅動
· 在一開始的時候,儘可能不要系統地去啃一些東西,找一個實際的項目(開始能夠從豆瓣、小豬這種簡單的入手),直接開始就好。
· 高效的姿式就是從實際的項目中去學習這些零散的知識點,你能保證每次學到的都是最須要的那部分。
 

 

##本系列內容爲《python3爬蟲開發實戰》學習筆記。本系列博客列表以下:html

(零)學習路線python

(一)開發環境配置數據庫

(二)爬蟲基礎併發

(三)基本庫使用scrapy

(四)解析庫使用分佈式

(五)數據存儲學習

(六)Ajax數據爬取網站

(七)動態渲染頁面爬取Seleniumui

持續更新...spa

對應代碼請見:..

相關文章
相關標籤/搜索