Python學習彙總，作數據採集的一些小技巧，乾貨滿滿

時間 2019-12-14

原文原文鏈接

學習Python也有一段時間了，在學習過程當中不斷的練習學到的各種知識，作的最多的仍是爬蟲，也就是簡單的數據採集，有采集圖片（這個最多了。。。），有下載電影的，也有學習相關的好比ppt模板的抓取，固然也寫過相似收發郵件，自動登陸論壇發帖，驗證碼相關操做等等！html

這些腳本有一個共性，都是和web相關的，總要用到獲取連接的一些方法，在此總結一下，也分享給正在學習的小夥伴python

安裝相關

python的各個版本其實分別並不大，因此不用太糾結用3.6仍是3.7.web

而咱們常常使用的庫呢，建議你們學到什麼庫安裝什麼庫瀏覽器

有的同窗會糾結，庫安裝不上的問題，這個推薦你們百度搜索：python whl 第一個就是吧，在裏面有各個庫的各個版本，選擇對應的下載回來，用pip install 文件完整路徑安裝便可！服務器

pip install d:\requests_download-0.1.2-py2.py3-none-any.whl

最基本的抓站——獲取源代碼cookie

import requests#導入庫

html = requests.get(url)#獲取源代碼

html.encoding='utf-8'#指定含中文的網頁源代碼編碼格式，具體格式通常存在於源代碼的meta標籤內

適用於靜態網頁框架

網站反「反爬」

大部分的網站（各種中小型網站）都會須要你的代碼有headers的信息，若是沒有，會直接拒絕你的訪問！大型網站反而不多，尤爲是門戶網站，好比新浪新聞、頭條圖集、百度圖片的爬蟲，基本沒有什麼反爬措施，相關內容能夠看看個人其餘文章！學習

而有反爬措施的網站，大部分能夠按加入UA信息——加入HOST、Referer（反盜鏈）信息的順序加入到headers數據(字典格式)中來嘗試！代碼格式網站

requeststs.get(url,headers=headers)

UA信息是瀏覽器信息，告訴對方服務器咱們是什麼瀏覽器，平時能夠收集下相關信息作個UA池，須要的時候調用就能夠，也能夠隨機調用，防止被網站發現，注意的是若是是移動端，必定要注意移動端的網頁和pc端的不同，好比作微博爬蟲，咱們就比較喜歡移動端，它的反爬力度比pc端的要低不少，也提醒你們，若是一個網站反爬很厲害，你能夠去看看移動端（手機登陸而後複製url），也許會有驚喜！編碼

HOST信息, 網站的主機信息，這個通常是不變的

Referer信息，這個就是「反盜鏈」的關鍵信息，簡單的說，就是你是從哪裏到當前頁面的，破解也很簡單，把url放到裏面就行！

若是上述辦法仍是繞不過反爬，那麼就麻煩一些，把headers裏面的信息都寫進去吧

終極反「反爬」：去學習selenium吧少年！