python網絡爬蟲的簡要分析

爬蟲與反爬蟲
1 應用場景:
01 作數據分析(大數據)將分析出來的結果製成圖(餅狀圖、柱狀圖。折線圖等)
爲公司經營決策提供提供策略
02 將數據應用於公司的網站或者app;
03 技術手段:urllib、request、bs四、lxml、pyspider(框架)、scrapy(框架)html

2 爬蟲網站:
     從網站類型上分爲:
     01 靜態網站:頁面上展現的數據,若是能夠右鍵-網頁源代碼查看
     中看到數據,就說明是靜態網站!

     02 動態網站:頁面上展現的數據,右鍵-網頁源代碼沒法看到數據內容,就說明是動態網站。
         若是是動態網站,分三種狀況進行爬取:
              01 看看頁面上展現的數據,是不是經過API接口返回json數據,這種是最簡單的方式
              02 使用selenium動態加載JS文件,獲取JS加載完成以後的頁面;缺點是效率比較慢
              03 有些網站會對selenium驅動進行識別,經過分析網站的js源代碼,看數據是如何返回的
              
     從難易程度上分爲:
     01 數據直接經過html 源代碼返回來
     02 經過js請求參數加密
     03 須要使用cookie進行網絡請求
     04 返回數據加密:
     05 須要重點分析的請求頭和響應頭
     06 網站對同一個IP有限制的訪問次數限制
     07 驗證碼的破解
     
3 請求頭和響應頭中經常使用的字段:
    01 請求頭
       HOST:當前請求對應的服務器地址
       REFERER:表示這次請求是由哪一個地方發起的請求
       COOKIE:請求的時候攜帶這個cookie能夠實現免登錄
       USER-AGENT:瀏覽器標識,若是不攜帶該字段。可能會被對方服務器
       認爲是爬蟲
    02 響應頭:
       SET-COOKIE:通常是服務器向客服端發佈會的cookie信息
       cookie和session技術:
相關文章
相關標籤/搜索