文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,版權歸原做者全部,若有問題請及時聯繫咱們以做處理。html
做者: JAP君sql
PS:若有須要Python學習資料的小夥伴能夠加點擊下方連接自行獲取網絡
http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef架構
我們直接進入今天的主題---你真的會寫爬蟲嗎?爲啥標題是這樣,由於咱們平常寫小爬蟲都是一個py文件加上幾個請求,可是若是你去寫一個正式的項目時,你必須考慮到不少種狀況,因此咱們須要把這些功能所有模塊化,這樣也使咱們的爬蟲更加的健全。app
首先,給你們來說講基礎爬蟲的架構究竟是啥樣子的?JAP君給你們畫了張粗糙的圖:ide
從圖上能夠看到,整個基礎爬蟲架構分爲5大類:爬蟲調度器、URL管理器、HTML下載器、HTML解析器、數據存儲器
。模塊化
下面給你們依次來介紹一下這5個大類的功能:post
1. 爬蟲調度器:
主要是配合調用其餘四個模塊,所謂調度就是取調用其餘的模板。學習
2. URL管理器:
就是負責管理URL連接的,URL連接分爲已經爬取的和未爬取的,這就須要URL管理器來管理它們,同時它也爲獲取新URL連接提供接口。網站
3. HTML下載器:
就是將要爬取的頁面的HTML下載下來。
4. HTML解析器:
就是將要爬取的數據從HTML源碼中獲取出來,同時也將新的URL連接發送給URL管理器以及將處理後的數據發送給數據存儲器。
5.數據存儲器:
就是將HTML下載器發送過來的數據存儲到本地。
差很少就介紹這麼些東西,相信你們對總體的架構有了初步的認識,下面我簡單找了個網站給你們演示一遍用爬蟲架構來爬取信息:
咱們來獲取上面列表中的信息,這裏我就省略了分析網站的一步,若是你們不會分析,能夠去看我以前寫的爬蟲項目。
首先,咱們來寫一下URL管理器(URLManage.py
)
1 class URLManager(object): 2 def __init__(self): 3 self.new_urls = set() 4 self.old_urls = set() 5 6 def has_new_url(self): 7 # 判斷是否有未爬取的url 8 return self.new_url_size()!=0 9 10 def get_new_url(self): 11 # 獲取一個未爬取的連接 12 new_url = self.new_urls.pop() 13 # 提取以後,將其添加到已爬取的連接中 14 self.old_urls.add(new_url) 15 return new_url 16 17 def add_new_url(self, url): 18 # 將新連接添加到未爬取的集合中(單個連接) 19 if url is None: 20 return 21 if url not in self.new_urls and url not in self.old_urls: 22 self.new_urls.add(url) 23 24 def add_new_urls(self,urls): 25 # 將新連接添加到未爬取的集合中(集合) 26 if urls is None or len(urls)==0: 27 return 28 for url in urls: 29 self.add_new_url(url) 30 31 def new_url_size(self): 32 # 獲取未爬取的url大小 33 return len(self.new_urls) 34 35 def old_url_size(self): 36 # 獲取已爬取的url大小 37 return len(self.old_urls)
在這裏主要就是兩個集合,一個是已爬取URL的集合,另外一個是未爬取URL的集合。這裏我使用的是set類型,由於set自帶去重的功能。
接下來,HTML下載器(HTMLDownload.py
)
1 import requests 2 class HTMLDownload(object): 3 def download(self, url): 4 if url is None: 5 return 6 s = requests.Session() 7 s.headers['User-Agent'] ='Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 63.0.3239.132Safari / 537.36' 8 res = s.get(url) 9 # 判斷是否正常獲取 10 if res.status_code == 200: 11 res.encoding='utf-8' 12 res = res.text 13 return res 14 return None
能夠看到這裏咱們只是簡單的獲取了,url中的html源碼
接着看HTML解析器(HTMLParser.py
)
1 import re 2 from bs4 import BeautifulSoup 3 class HTMLParser(object): 4 5 def parser(self, page_url, html_cont): 6 ''' 7 用於解析網頁內容,抽取URL和數據 8 :param page_url: 下載頁面的URL 9 :param html_cont: 下載的網頁內容 10 :return: 返回URL和數據 11 ''' 12 if page_url is None or html_cont is None: 13 return 14 soup = BeautifulSoup(html_cont, 'html.parser') 15 new_urls = self._get_new_urls(page_url, soup) 16 new_data = self._get_new_data(page_url, soup) 17 return new_urls, new_data 18 19 def _get_new_urls(self,page_url,soup): 20 ''' 21 抽取新的URL集合 22 :param page_url:下載頁面的URL 23 :param soup: soup數據 24 :return: 返回新的URL集合 25 ''' 26 new_urls = set() 27 for link in range(1,100): 28 # 添加新的url 29 new_url = "http://www.runoob.com/w3cnote/page/"+str(link) 30 new_urls.add(new_url) 31 print(new_urls) 32 return new_urls 33 34 def _get_new_data(self,page_url,soup): 35 ''' 36 抽取有效數據 37 :param page_url:下載頁面的url 38 :param soup: 39 :return: 返回有效數據 40 ''' 41 data={} 42 data['url'] = page_url 43 title = soup.find('div', class_='post-intro').find('h2') 44 print(title) 45 data['title'] = title.get_text() 46 summary = soup.find('div', class_='post-intro').find('p') 47 data['summary'] = summary.get_text() 48 return data
在這裏,咱們將HTML下載器的源碼進行了分析和解析,從而獲得了咱們想要拿到的數據,若是BeautifulSoup不懂的能夠去看一下我以前寫的文章。
繼續看,數據存儲器(DataOutput.py
)
1 import codecs 2 class DataOutput(object): 3 4 def __init__(self): 5 self.datas = [] 6 7 def store_data(self,data): 8 if data is None: 9 return 10 self.datas.append(data) 11 12 def output_html(self): 13 fout = codecs.open('baike.html', 'a', encoding='utf-8') 14 fout.write("<html>") 15 fout.write("<head><meta charset='utf-8'/></head>") 16 fout.write("<body>") 17 fout.write("<table>") 18 for data in self.datas: 19 fout.write("<tr>") 20 fout.write("<td>%s</td>"%data['url']) 21 fout.write("<td>《%s》</td>" % data['title']) 22 fout.write("<td>[%s]</td>" % data['summary']) 23 fout.write("</tr>") 24 self.datas.remove(data) 25 fout.write("</table>") 26 fout.write("</body>") 27 fout.write("</html>") 28 fout.close()
你們可能發現我這裏是將數據存儲到一個html的文件當中,在這裏你固然也能夠存在Mysql或者csv等文件當中,這個看本身的選擇,我這裏只是爲了演示因此就放在了html當中。
最後一個,爬蟲調度器(SpiderMan.py
)
1 from base.DataOutput import DataOutput 2 from base.HTMLParser import HTMLParser 3 from base.HTMLDownload import HTMLDownload 4 from base.URLManager import URLManager 5 6 class SpiderMan(object): 7 def __init__(self): 8 self.manager = URLManager() 9 self.downloader = HTMLDownload() 10 self.parser = HTMLParser() 11 self.output = DataOutput() 12 13 14 def crawl(self, root_url): 15 # 添加入口URL 16 self.manager.add_new_url(root_url) 17 # 判斷url管理器中是否有新的url,同時判斷抓取多少個url 18 while(self.manager.has_new_url() and self.manager.old_url_size()<100): 19 try: 20 # 從URL管理器獲取新的URL 21 new_url = self.manager.get_new_url() 22 print(new_url) 23 # HTML下載器下載網頁 24 html = self.downloader.download(new_url) 25 # HTML解析器抽取網頁數據 26 new_urls, data = self.parser.parser(new_url, html) 27 print(new_urls) 28 # 將抽取的url添加到URL管理器中 29 self.manager.add_new_urls(new_urls) 30 # 數據存儲器存儲文件 31 self.output.store_data(data) 32 print("已經抓取%s個連接" % self.manager.old_url_size()) 33 except Exception as e: 34 print("failed") 35 print(e) 36 # 數據存儲器將文件輸出成指定的格式 37 self.output.output_html() 38 39 40 if __name__ == '__main__': 41 spider_man = SpiderMan() 42 spider_man.crawl("http://www.runoob.com/w3cnote/page/1")
相信這裏你們都能看懂,我就是將前面咱們寫的四個模板在這裏把它們調用了一下,咱們運行後的結果: