python網絡爬蟲的簡要分析

時間 2019-12-17

原文原文鏈接

爬蟲與反爬蟲
1 應用場景：
01 作數據分析（大數據）將分析出來的結果製成圖（餅狀圖、柱狀圖。折線圖等）
爲公司經營決策提供提供策略
02 將數據應用於公司的網站或者app；
03 技術手段：urllib、request、bs四、lxml、pyspider（框架）、scrapy（框架）html

2 爬蟲網站：
     從網站類型上分爲：
     01 靜態網站：頁面上展現的數據，若是能夠右鍵-網頁源代碼查看
     中看到數據，就說明是靜態網站！

     02 動態網站：頁面上展現的數據，右鍵-網頁源代碼沒法看到數據內容，就說明是動態網站。
         若是是動態網站，分三種狀況進行爬取：
              01 看看頁面上展現的數據，是不是經過API接口返回json數據，這種是最簡單的方式
              02 使用selenium動態加載JS文件，獲取JS加載完成以後的頁面;缺點是效率比較慢
              03 有些網站會對selenium驅動進行識別，經過分析網站的js源代碼，看數據是如何返回的
              
     從難易程度上分爲：
     01 數據直接經過html 源代碼返回來
     02 經過js請求參數加密
     03 須要使用cookie進行網絡請求
     04 返回數據加密：
     05 須要重點分析的請求頭和響應頭
     06 網站對同一個IP有限制的訪問次數限制
     07 驗證碼的破解
     
3 請求頭和響應頭中經常使用的字段：
    01 請求頭
       HOST:當前請求對應的服務器地址
       REFERER:表示這次請求是由哪一個地方發起的請求
       COOKIE:請求的時候攜帶這個cookie能夠實現免登錄
       USER-AGENT:瀏覽器標識，若是不攜帶該字段。可能會被對方服務器
       認爲是爬蟲
    02 響應頭：
       SET-COOKIE:通常是服務器向客服端發佈會的cookie信息
       cookie和session技術：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。