模擬某個瀏覽器抓取數據,要與瀏覽器中的header裏的屬性保持一致
抓取數據思路:html
訪問url連接(發送請求) -> 獲取網頁版的html(獲取頁面) -> 對html進行解析(解析頁面)數據庫
-> 解析後獲取相應的數據並寫入新的文件(抽取並存儲內容)瀏覽器
分享學習計劃:
1.學習 Python 包並實現基本的爬蟲過程併發
2.瞭解非結構化數據的存儲scrapy
3.學習scrapy,搭建工程化爬蟲分佈式
4.學習數據庫知識,應對大規模數據存儲與提取學習
5.掌握各類技巧,應對特殊網站的反爬措施網站
6.分佈式爬蟲,實現大規模併發採集,提高效率url
僅分享思路,若要閱覽完整Demo實例的話,可參照如下連接:.net