初學爬蟲日誌(1)

這一系列日誌將記錄我從0開始學習爬蟲的過程,並計劃在一個月以內掌握爬蟲。html

爬蟲用到的庫,BeautifulSoup4,requests,lxmlpython

首先導入庫瀏覽器

from bs4 import BeautifulSoup
import requests

將要爬取的網頁的網址保存在字符串變量url中cookie

url='xxx.html'

使用requests中的get函數爬取網頁內容,並保存在變量wb_data中。函數

wb_data=requests.get(url)

get函數能夠帶參數,建立一個字典保存User-Agent和Cookie等信息,將字典賦給get函數中的參數headers能夠用僞造的用戶信息爬取用戶登錄以後的網頁。學習

#headers={'User-Agent':xxx,'Cookie':xxx}
#wb_data=requests.get(url,headers=headers)

#wb_data所保存的信息
'''
wb_data.text-網頁的代碼
wb_data.status_code-狀態碼
wb_data.url-請求url
wb_data.headers-頭信息
wb_data.cookies-cookie信息
wb_data.content-字節流的形式
'''

將數據用BeautifulSoup進行解析,保存在soup變量中。url

soup=BeautifulSoup(wb_data.text,'lxml')#用lxml方式解析

以後用select函數從soup中選取要爬取的數據便可,如爬取標題:日誌

titles=soup.select('a.location-name')#引號裏的是路徑,在chorme瀏覽器下,檢查元素,右鍵copy selector所複製的內容
#可在標籤後加上篩選的條件,imgs=soup.select("img.photo_image[width='160']")

一些輔助函數get_text()可去掉標籤,提取出文本,get函數可提取標籤裏的內容,如code

title=title.get_text()
img=img.get('src')
相關文章
相關標籤/搜索