第一次聽到這個名字的時候,以爲挺low的,由於從小就以爲蟲子之類很眇小,一踩就死,後來逐漸瞭解python,瞭解到了爬蟲的做用,看到招聘網站上給出的不錯的薪資,感受這個東西還挺厲害的嘛!python
好吧,廢話很少說,直接上乾貨!瀏覽器
那麼什麼是爬蟲? 說白了,爬蟲就是人根據本身的需求從互聯網這張大網上收集數據的程序,只不過,咱們平時瀏覽和收集數據是經過本身上網用瀏覽器來瀏覽網頁,而爬蟲是機器代替人來作這件事情。cookie
很顯然,爬蟲的效率要比人要高的多的多的多。。。post
爲何爬蟲值錢呢?由於互聯網中最有價值的即是數據,好比天貓商城的商品信息,鏈家網的租房信息,雪球網的證券投資信息等等,這些數據都表明了各個行業的真金白銀,能夠說,誰掌握了行業內的第一手數據,網站
誰就成了整個行業的主宰,若是把整個互聯網的數據比喻爲一座寶藏,那咱們的爬蟲課程就是來教你們如何來高效地挖掘這些寶藏,掌握了爬蟲技能,你就成了全部互聯網信息公司幕後的老闆,換言之,url
它們都在免費爲你提供有價值的數據。spa
爬蟲經常使用基本庫:code
1.requests對象
經常使用參數: requests.requersts 1.method:提交方式 2.url:提交的目標url 3.params:在URL中傳遞的參數 params={'k1':'v1','k2':'v2'} 舉個例子: requests.request( method='GET', url:'http://www.Matthew.com', params={'k1':'v1','k2':'v2'} } # http://www.Matthew.com?k1=v1&k2=v2 4. data:在請求體裏傳遞的數據(字典,字節,文件對象) 5. jason:將數據變成一個大字符串,有別於data 6.headers 請求頭(經常使用做反爬取,模擬瀏覽器行爲) 7.cookies:取得Cookies(在請求頭裏) 8.files:上傳文件 舉個例子: requests.post( url='xxx', files={ 'f1':open('s1.py','rb') } ) 9.auth:認證
2.beautifulblog
pass