模擬某個瀏覽器抓取數據

 模擬某個瀏覽器抓取數據,要與瀏覽器中的header裏的屬性保持一致
 抓取數據思路:html

訪問url連接(發送請求) -> 獲取網頁版的html(獲取頁面) -> 對html進行解析(解析頁面)數據庫

  -> 解析後獲取相應的數據並寫入新的文件(抽取並存儲內容)瀏覽器

  分享學習計劃:    
  1.學習 Python 包並實現基本的爬蟲過程併發

  2.瞭解非結構化數據的存儲scrapy

 3.學習scrapy,搭建工程化爬蟲分佈式

 4.學習數據庫知識,應對大規模數據存儲與提取學習

 5.掌握各類技巧,應對特殊網站的反爬措施網站

 6.分佈式爬蟲,實現大規模併發採集,提高效率url

僅分享思路,若要閱覽完整Demo實例的話,可參照如下連接:.net

http://blog.csdn.net/bo_wen_/article/details/50868339

相關文章
相關標籤/搜索