照着靜覓大神的博客學習,原文在這:http://cuiqingcai.com/990.htmlhtml
劃重點:python
1. str.strip() strip函數會把字符串的先後多餘的空白字符去掉app
2. response.read().decode('utf-8','ignore') 要加'ignore'忽略非法字符,否則老是報解碼錯誤ide
3. python 3.x 中 raw_input 改爲 input 了函數
4. 代碼最好用notepad++先寫 格式清晰一點 容易發現錯 尤爲是縮進和中文標點的錯誤學習
5. .*? 經常使用組合, 後面的?表示非貪婪模式ui
用python3.4.3實現的糗百爬蟲代碼以下(就是照着大神的抄的,把2.x的部分給改了而已):url
import urllib.request import urllib.parse import re import time #糗事百科爬蟲類 class QSBK: #初始化方法,定義一些變量 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36' self.headers = {'User-Agent' : self.user_agent} #存放段子的變量,每一個元素是每一頁的段子 self.stories = [] #存放程序是否繼續運行的變量 self.enable = False #傳入某一頁的索引得到頁面代碼 def getPage(self, pageIndex): try: url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex) request = urllib.request.Request(url, headers = self.headers) response = urllib.request.urlopen(request) pageCode = response.read().decode('utf-8','ignore') #這個ignore忽略非法字符 必定要加 否則總報解碼錯誤 return pageCode except urllib.error.URLError as e: if hasattr(e, "reason"): print(u"鏈接糗事百科失敗,錯誤緣由:", e.reason) return None #傳入某一頁代碼,返回本頁不斷圖片的段子列表 def getPageItems(self, pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print(u"頁面加載失敗....") return None pattern = re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+ 'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">(.*?)</i>', re.S) items = re.findall(pattern, pageCode) #用來存儲每頁的段子 pageStories = [] for item in items: haveImg = re.search("img", item[3]) if not haveImg: replaceBR = re.compile('<br/>') text = re.sub(replaceBR, "\n", item[1]) pageStories.append([item[0].strip(), text.strip(),item[4].strip()]) #.strip() 用來刪除空白符 return pageStories #加載並提取頁面的內容,加入到列表中 def loadPage(self): #若是當前未看的頁數少於2頁,則加載新一頁 if self.enable == True: if len(self.stories) < 2: #獲取新一頁 pageStories = self.getPageItems(self.pageIndex) #將該頁的段子存放到全局list中 if pageStories: self.stories.append(pageStories) #頁碼加1,下次讀取下一頁 self.pageIndex += 1 #每次敲回車打印一個段子 def getOneStory(self,pageStories,page): #遍歷一頁的段子 for story in pageStories: #等待用戶輸入 input_v = input() #每當輸入回車一次,判斷一下是否要加載新頁面 self.loadPage() #若是輸入Q則程序結束 if input_v == "Q": self.enable = False return print(u"第%d頁\t發佈人:%s\t贊:%s\n%s" % (page, story[0], story[2],story[1])) #開始方法 def start(self): print(u"正在讀取糗事百科,按回車查看新段子,Q退出") #使變量爲True,程序能夠正常運行 self.enable = True #先加載一頁內容 self.loadPage() #局部變量,控制當前讀到2了第幾頁 nowPage = 0 while self.enable: if len(self.stories) > 0: #從全局list中獲取一頁段子 pageStories = self.stories[0] #當前讀到的頁數加1 nowPage += 1 #刪除已經取出的元素 del self.stories[0] #輸出該頁的段子 self.getOneStory(pageStories,nowPage) spider = QSBK() spider.start()