爬蟲與反爬蟲
1 應用場景:
01 作數據分析(大數據)將分析出來的結果製成圖(餅狀圖、柱狀圖。折線圖等)
爲公司經營決策提供提供策略
02 將數據應用於公司的網站或者app;
03 技術手段:urllib、request、bs四、lxml、pyspider(框架)、scrapy(框架)html
2 爬蟲網站: 從網站類型上分爲: 01 靜態網站:頁面上展現的數據,若是能夠右鍵-網頁源代碼查看 中看到數據,就說明是靜態網站! 02 動態網站:頁面上展現的數據,右鍵-網頁源代碼沒法看到數據內容,就說明是動態網站。 若是是動態網站,分三種狀況進行爬取: 01 看看頁面上展現的數據,是不是經過API接口返回json數據,這種是最簡單的方式 02 使用selenium動態加載JS文件,獲取JS加載完成以後的頁面;缺點是效率比較慢 03 有些網站會對selenium驅動進行識別,經過分析網站的js源代碼,看數據是如何返回的 從難易程度上分爲: 01 數據直接經過html 源代碼返回來 02 經過js請求參數加密 03 須要使用cookie進行網絡請求 04 返回數據加密: 05 須要重點分析的請求頭和響應頭 06 網站對同一個IP有限制的訪問次數限制 07 驗證碼的破解 3 請求頭和響應頭中經常使用的字段: 01 請求頭 HOST:當前請求對應的服務器地址 REFERER:表示這次請求是由哪一個地方發起的請求 COOKIE:請求的時候攜帶這個cookie能夠實現免登錄 USER-AGENT:瀏覽器標識,若是不攜帶該字段。可能會被對方服務器 認爲是爬蟲 02 響應頭: SET-COOKIE:通常是服務器向客服端發佈會的cookie信息 cookie和session技術: