這一系列日誌將記錄我從0開始學習爬蟲的過程,並計劃在一個月以內掌握爬蟲。html
爬蟲用到的庫,BeautifulSoup4,requests,lxmlpython
首先導入庫瀏覽器
from bs4 import BeautifulSoup import requests
將要爬取的網頁的網址保存在字符串變量url中cookie
url='xxx.html'
使用requests中的get函數爬取網頁內容,並保存在變量wb_data中。函數
wb_data=requests.get(url)
get函數能夠帶參數,建立一個字典保存User-Agent和Cookie等信息,將字典賦給get函數中的參數headers能夠用僞造的用戶信息爬取用戶登錄以後的網頁。學習
#headers={'User-Agent':xxx,'Cookie':xxx} #wb_data=requests.get(url,headers=headers) #wb_data所保存的信息 ''' wb_data.text-網頁的代碼 wb_data.status_code-狀態碼 wb_data.url-請求url wb_data.headers-頭信息 wb_data.cookies-cookie信息 wb_data.content-字節流的形式 '''
將數據用BeautifulSoup進行解析,保存在soup變量中。url
soup=BeautifulSoup(wb_data.text,'lxml')#用lxml方式解析
以後用select函數從soup中選取要爬取的數據便可,如爬取標題:日誌
titles=soup.select('a.location-name')#引號裏的是路徑,在chorme瀏覽器下,檢查元素,右鍵copy selector所複製的內容 #可在標籤後加上篩選的條件,imgs=soup.select("img.photo_image[width='160']")
一些輔助函數get_text()可去掉標籤,提取出文本,get函數可提取標籤裏的內容,如code
title=title.get_text() img=img.get('src')