Python學習彙總,作數據採集的一些小技巧,乾貨滿滿

Python學習彙總,作數據採集的一些小技巧,乾貨滿滿

 學習Python也有一段時間了,在學習過程當中不斷的練習學到的各種知識,作的最多的仍是爬蟲,也就是簡單的數據採集,有采集圖片(這個最多了。。。),有下載電影的,也有學習相關的好比ppt模板的抓取,固然也寫過相似收發郵件,自動登陸論壇發帖,驗證碼相關操做等等!html

這些腳本有一個共性,都是和web相關的,總要用到獲取連接的一些方法,在此總結一下,也分享給正在學習的小夥伴python

安裝相關

python的各個版本其實分別並不大,因此不用太糾結用3.6仍是3.7.web

而咱們常常使用的庫呢,建議你們學到什麼庫安裝什麼庫瀏覽器

有的同窗會糾結,庫安裝不上的問題,這個推薦你們百度搜索:python whl 第一個就是吧,在裏面有各個庫的各個版本,選擇對應的下載回來,用pip install 文件完整路徑 安裝便可!服務器

pip install d:\requests_download-0.1.2-py2.py3-none-any.whl

最基本的抓站——獲取源代碼cookie

import requests#導入庫

html = requests.get(url)#獲取源代碼

html.encoding='utf-8'#指定含中文的網頁源代碼編碼格式,具體格式通常存在於源代碼的meta標籤內

適用於靜態網頁框架

網站反「反爬」

大部分的網站(各種中小型網站)都會須要你的代碼有headers的信息,若是沒有,會直接拒絕你的訪問!大型網站反而不多,尤爲是門戶網站,好比新浪新聞、頭條圖集、百度圖片的爬蟲,基本沒有什麼反爬措施,相關內容能夠看看個人其餘文章!學習

而有反爬措施的網站,大部分能夠按加入UA信息——加入HOST、Referer(反盜鏈)信息的順序加入到headers數據(字典格式)中來嘗試!代碼格式 網站

requeststs.get(url,headers=headers)

UA信息是瀏覽器信息,告訴對方服務器咱們是什麼瀏覽器,平時能夠收集下相關信息作個UA池,須要的時候調用就能夠,也能夠隨機調用,防止被網站發現,注意的是若是是移動端,必定要注意移動端的網頁和pc端的不同,好比作微博爬蟲,咱們就比較喜歡移動端,它的反爬力度比pc端的要低不少,也提醒你們,若是一個網站反爬很厲害,你能夠去看看移動端(手機登陸而後複製url),也許會有驚喜!編碼

Python學習彙總,作數據採集的一些小技巧,乾貨滿滿

HOST信息, 網站的主機信息,這個通常是不變的

Referer信息 ,這個就是「反盜鏈」的關鍵信息,簡單的說,就是你是從哪裏到當前頁面的,破解也很簡單,把url放到裏面就行!

若是上述辦法仍是繞不過反爬,那麼就麻煩一些,把headers裏面的信息都寫進去吧

終極反「反爬」:去學習selenium吧少年!

保存文件

其實能夠簡單的分兩大類:字符串內容保存和其餘內容保存!簡單的2行代碼就能夠解決

Python學習彙總,作數據採集的一些小技巧,乾貨滿滿

 a+爲文末追加寫入模式,適用於字符串內容的寫入,注意排版,也能夠在'a+'後面添加參數encoding='utf-8'指定保存文本的編碼格式

wb爲二進制寫入模式,適用於找到對象的真實下載地址後用二進制方式下載文件

Python學習彙總,作數據採集的一些小技巧,乾貨滿滿

 未完待續

篇幅有限,原本想寫完的,可是有人和我說,寫的太多沒人看。。。這就很尷尬了!那就先寫到這裏吧!

也正好有時間從新整理下後面的內容,大概有:自動登陸(cookie池)和保持登陸、ip代理、驗證碼(這個是大項)以及scarpy框架的一些注意事項。

有其餘技巧或者疑問的同窗,也能夠在評論區寫上或者私信我,我們一塊兒討論哦!

關注博客或者公衆號:python入門,獲取更多信息!

相關文章
相關標籤/搜索