此文承接上文,讓咱們寫一個簡簡單單的爬蟲,循序而漸進不是嗎?這次進行的練習是爬取前5頁什麼值得買網站中的白菜價包郵信息。包括名稱,價格,推薦人,時間。python
咱們所須要作的工做:1.肯定URL並得到頁面代碼。 2.用正則匹配每件商品咱們所須要的內容 3.打印信息 我仍是直接上代碼吧,具體步驟看註釋就好啦!(代碼會引用HttpClient.py,能夠參考以前的SmartQQ協議一文)!函數
1 # -*- coding: utf-8 -*- 2 import re,time,os 3 from HttpClient import HttpClient 4 class Smzdm(HttpClient): 5 def __init__(self): 6 self.__pageIndex = 1 7 self.__Url = "http://faxian.smzdm.com/9kuai9/p" 8 9 #正則獲得每頁商品信息 10 def __getAllGoods(self,pageIndex): 11 realurl = self.__Url + str(pageIndex) 12 pageCode = self.Get(realurl) 13 pattern = re.compile('<h2 .*?itemName"><a.*?<span .*?black">(.*?)</span><span .*?red">(.*?)</span></a></h2>.*?'+ 14 '<div .*?itemUserInfo">.*?<a .*?<span .*?rankTitle">(.*?)</span>.*?<span .*?time">(.*?)</span>',re.S) 15 items = re.findall(pattern,pageCode.decode("utf-8")) 16 for item in items: 17 print item[0],item[1],item[2],item[3] 18 19 def start(self): 20 print("正在讀取前五頁白菜價包郵,請稍等...") 21 for i in range(1,6): 22 print i 23 self.__getAllGoods(i) 24 25 pc = Smzdm() 26 pc.start()
執行結果以下:網站
是否是感受,代碼怎麼這麼少,這就搞定了?YES!編碼
稍微解釋一下思路,通常相似於這種網站都是頁面+頁號構成url。因此定義一個基礎url,根據傳入的頁號構造一個真實的url。經過urllib2模塊訪問頁面獲得頁面代碼,經過構造正則pattern,調用re.findall()函數找到當前頁面全部的信息,而後打印出來。一個功能智障,代碼簡單的爬蟲就造好了,easy的會了default的固然就水到渠成了,接下來你能夠去試試糗事百科的段子,百度貼吧的帖子,網易新聞的留言等等!另外,個人環境爲2.7.10,python3如下須要注意編碼問題,處處都是坑!url