第一篇：初識爬蟲

時間 2020-06-06

標籤一篇爬蟲欄目網絡爬蟲简体版

原文原文鏈接

第一次聽到這個名字的時候，以爲挺low的，由於從小就以爲蟲子之類很眇小，一踩就死，後來逐漸瞭解python，瞭解到了爬蟲的做用，看到招聘網站上給出的不錯的薪資，感受這個東西還挺厲害的嘛！python

好吧，廢話很少說，直接上乾貨！瀏覽器

那麼什麼是爬蟲？說白了，爬蟲就是人根據本身的需求從互聯網這張大網上收集數據的程序，只不過，咱們平時瀏覽和收集數據是經過本身上網用瀏覽器來瀏覽網頁，而爬蟲是機器代替人來作這件事情。cookie

很顯然，爬蟲的效率要比人要高的多的多的多。。。post

爲何爬蟲值錢呢？由於互聯網中最有價值的即是數據，好比天貓商城的商品信息，鏈家網的租房信息，雪球網的證券投資信息等等，這些數據都表明了各個行業的真金白銀，能夠說，誰掌握了行業內的第一手數據，網站

誰就成了整個行業的主宰，若是把整個互聯網的數據比喻爲一座寶藏，那咱們的爬蟲課程就是來教你們如何來高效地挖掘這些寶藏，掌握了爬蟲技能，你就成了全部互聯網信息公司幕後的老闆，換言之，url

它們都在免費爲你提供有價值的數據。spa

爬蟲經常使用基本庫：code

1.requests對象

經常使用參數：
requests.requersts

1.method:提交方式

2.url:提交的目標url

3.params:在URL中傳遞的參數

params={'k1':'v1','k2':'v2'}

舉個例子：

requests.request(
    method='GET',
    url:'http://www.Matthew.com',
    params={'k1':'v1','k2':'v2'}
    }
# http://www.Matthew.com?k1=v1&k2=v2

4. data:在請求體裏傳遞的數據（字典，字節，文件對象）

5. jason：將數據變成一個大字符串，有別於data

6.headers 請求頭（經常使用做反爬取，模擬瀏覽器行爲）

7.cookies：取得Cookies（在請求頭裏）

8.files:上傳文件

舉個例子：

requests.post(
    url='xxx',
    files={
        'f1':open('s1.py','rb')
    }
)

9.auth:認證