初學爬蟲日誌（1）

時間 2019-11-13

原文原文鏈接

這一系列日誌將記錄我從0開始學習爬蟲的過程，並計劃在一個月以內掌握爬蟲。html

爬蟲用到的庫，BeautifulSoup4,requests,lxmlpython

首先導入庫瀏覽器

from bs4 import BeautifulSoup
import requests

將要爬取的網頁的網址保存在字符串變量url中cookie

url='xxx.html'

使用requests中的get函數爬取網頁內容，並保存在變量wb_data中。函數

wb_data=requests.get(url)

get函數能夠帶參數，建立一個字典保存User-Agent和Cookie等信息，將字典賦給get函數中的參數headers能夠用僞造的用戶信息爬取用戶登錄以後的網頁。學習

#headers={'User-Agent':xxx,'Cookie':xxx}
#wb_data=requests.get(url,headers=headers)

#wb_data所保存的信息
'''
wb_data.text-網頁的代碼
wb_data.status_code-狀態碼
wb_data.url-請求url
wb_data.headers-頭信息
wb_data.cookies-cookie信息
wb_data.content-字節流的形式
'''

將數據用BeautifulSoup進行解析，保存在soup變量中。url

soup=BeautifulSoup(wb_data.text,'lxml')#用lxml方式解析

以後用select函數從soup中選取要爬取的數據便可,如爬取標題：日誌

titles=soup.select('a.location-name')#引號裏的是路徑，在chorme瀏覽器下，檢查元素，右鍵copy selector所複製的內容
#可在標籤後加上篩選的條件，imgs=soup.select("img.photo_image[width='160']")

一些輔助函數get_text()可去掉標籤，提取出文本，get函數可提取標籤裏的內容,如code

title=title.get_text()
img=img.get('src')

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。