第一篇:初識爬蟲

第一次聽到這個名字的時候,以爲挺low的,由於從小就以爲蟲子之類很眇小,一踩就死,後來逐漸瞭解python,瞭解到了爬蟲的做用,看到招聘網站上給出的不錯的薪資,感受這個東西還挺厲害的嘛!python

 

好吧,廢話很少說,直接上乾貨!瀏覽器

 

那麼什麼是爬蟲? 說白了,爬蟲就是人根據本身的需求從互聯網這張大網上收集數據的程序,只不過,咱們平時瀏覽和收集數據是經過本身上網用瀏覽器來瀏覽網頁,而爬蟲是機器代替人來作這件事情。cookie

很顯然,爬蟲的效率要比人要高的多的多的多。。。post

 

爲何爬蟲值錢呢?由於互聯網中最有價值的即是數據,好比天貓商城的商品信息,鏈家網的租房信息,雪球網的證券投資信息等等,這些數據都表明了各個行業的真金白銀,能夠說,誰掌握了行業內的第一手數據,網站

誰就成了整個行業的主宰,若是把整個互聯網的數據比喻爲一座寶藏,那咱們的爬蟲課程就是來教你們如何來高效地挖掘這些寶藏,掌握了爬蟲技能,你就成了全部互聯網信息公司幕後的老闆,換言之,url

它們都在免費爲你提供有價值的數據。spa

 

爬蟲經常使用基本庫:code

1.requests對象

經常使用參數:
requests.requersts

1.method:提交方式

2.url:提交的目標url

3.params:在URL中傳遞的參數

params={'k1':'v1','k2':'v2'}

舉個例子:

requests.request(
    method='GET',
    url:'http://www.Matthew.com',
    params={'k1':'v1','k2':'v2'}
    }
# http://www.Matthew.com?k1=v1&k2=v2

4. data:在請求體裏傳遞的數據(字典,字節,文件對象)

5. jason:將數據變成一個大字符串,有別於data

6.headers 請求頭(經常使用做反爬取,模擬瀏覽器行爲)

7.cookies:取得Cookies(在請求頭裏)

8.files:上傳文件

舉個例子:

requests.post(
    url='xxx',
    files={
        'f1':open('s1.py','rb')
    }
)

9.auth:認證

 

2.beautifulblog

pass
相關文章
相關標籤/搜索