[Python]網絡爬蟲(九):百度貼吧的網絡爬蟲(v0.4)源碼及解析(轉)

百度貼吧的爬蟲製做和糗百的爬蟲製做原理基本相同,都是經過查看源碼扣出關鍵數據,而後將其存儲到本地txt文件。html

 

源碼下載:正則表達式

http://download.csdn.net/detail/wxg694175346/6925583
數組

項目內容:網絡

用Python寫的百度貼吧的網絡爬蟲。app

使用方法:ide

新建一個BugBaidu.py文件,而後將代碼複製到裏面後,雙擊運行。post

程序功能:編碼

將貼吧中樓主發佈的內容打包txt存儲到本地。url

原理解釋:
spa

首先,先瀏覽一下某一條貼吧,點擊只看樓主並點擊第二頁以後url發生了一點變化,變成了:

http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1

能夠看出來,see_lz=1是隻看樓主,pn=1是對應的頁碼,記住這一點爲之後的編寫作準備。

這就是咱們須要利用的url。

接下來就是查看頁面源碼。

首先把題目摳出來存儲文件的時候會用到。

能夠看到百度使用gbk編碼,標題使用h1標記:

 

[html]  view plain copy 在CODE上查看代碼片 派生到個人代碼片
 
  1. <h1 class="core_title_txt" title="【原創】時尚首席(關於時尚,名利,事業,愛情,勵志)">【原創】時尚首席(關於時尚,名利,事業,愛情,勵志)</h1>  


一樣,正文部分用div和class綜合標記,接下來要作的只是用正則表達式來匹配便可。

運行截圖:

生成的txt文件:


 

 

  1 # -*- coding: utf-8 -*-
  2 #---------------------------------------
  3 #   程序:百度貼吧爬蟲
  4 #   版本:0.5
  5 #   做者:why
  6 #   日期:2013-05-16
  7 #   語言:Python 2.7
  8 #   操做:輸入網址後自動只看樓主並保存到本地文件
  9 #   功能:將樓主發佈的內容打包txt存儲到本地。
 10 #---------------------------------------
 11  
 12 import string
 13 import urllib2
 14 import re
 15 
 16 #----------- 處理頁面上的各類標籤 -----------
 17 class HTML_Tool:
 18     # 用非 貪婪模式 匹配 \t 或者 \n 或者 空格 或者 超連接 或者 圖片
 19     BgnCharToNoneRex = re.compile("(\t|\n| |<a.*?>|<img.*?>)")
 20     
 21     # 用非 貪婪模式 匹配 任意<>標籤
 22     EndCharToNoneRex = re.compile("<.*?>")
 23 
 24     # 用非 貪婪模式 匹配 任意<p>標籤
 25     BgnPartRex = re.compile("<p.*?>")
 26     CharToNewLineRex = re.compile("(<br/>|</p>|<tr>|<div>|</div>)")
 27     CharToNextTabRex = re.compile("<td>")
 28 
 29     # 將一些html的符號實體轉變爲原始符號
 30     replaceTab = [("<","<"),(">",">"),("&","&"),("&","\""),(" "," ")]
 31     
 32     def Replace_Char(self,x):
 33         x = self.BgnCharToNoneRex.sub("",x)
 34         x = self.BgnPartRex.sub("\n    ",x)
 35         x = self.CharToNewLineRex.sub("\n",x)
 36         x = self.CharToNextTabRex.sub("\t",x)
 37         x = self.EndCharToNoneRex.sub("",x)
 38 
 39         for t in self.replaceTab:  
 40             x = x.replace(t[0],t[1])  
 41         return x  
 42     
 43 class Baidu_Spider:
 44     # 申明相關的屬性
 45     def __init__(self,url):  
 46         self.myUrl = url + '?see_lz=1'
 47         self.datas = []
 48         self.myTool = HTML_Tool()
 49         print u'已經啓動百度貼吧爬蟲,咔嚓咔嚓'
 50   
 51     # 初始化加載頁面並將其轉碼儲存
 52     def baidu_tieba(self):
 53         # 讀取頁面的原始信息並將其從gbk轉碼
 54         myPage = urllib2.urlopen(self.myUrl).read().decode("gbk")
 55         # 計算樓主發佈內容一共有多少頁
 56         endPage = self.page_counter(myPage)
 57         # 獲取該帖的標題
 58         title = self.find_title(myPage)
 59         print u'文章名稱:' + title
 60         # 獲取最終的數據
 61         self.save_data(self.myUrl,title,endPage)
 62 
 63     #用來計算一共有多少頁
 64     def page_counter(self,myPage):
 65         # 匹配 "共有<span class="red">12</span>頁" 來獲取一共有多少頁
 66         myMatch = re.search(r'class="red">(\d+?)</span>', myPage, re.S)
 67         if myMatch:  
 68             endPage = int(myMatch.group(1))
 69             print u'爬蟲報告:發現樓主共有%d頁的原創內容' % endPage
 70         else:
 71             endPage = 0
 72             print u'爬蟲報告:沒法計算樓主發佈內容有多少頁!'
 73         return endPage
 74 
 75     # 用來尋找該帖的標題
 76     def find_title(self,myPage):
 77         # 匹配 <h1 class="core_title_txt" title="">xxxxxxxxxx</h1> 找出標題
 78         myMatch = re.search(r'<h1.*?>(.*?)</h1>', myPage, re.S)
 79         title = u'暫無標題'
 80         if myMatch:
 81             title  = myMatch.group(1)
 82         else:
 83             print u'爬蟲報告:沒法加載文章標題!'
 84         # 文件名不能包含如下字符: \ / : * ? " < > |
 85         title = title.replace('\\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')
 86         return title
 87 
 88 
 89     # 用來存儲樓主發佈的內容
 90     def save_data(self,url,title,endPage):
 91         # 加載頁面數據到數組中
 92         self.get_data(url,endPage)
 93         # 打開本地文件
 94         f = open(title+'.txt','w+')
 95         f.writelines(self.datas)
 96         f.close()
 97         print u'爬蟲報告:文件已下載到本地並打包成txt文件'
 98         print u'請按任意鍵退出...'
 99         raw_input();
100 
101     # 獲取頁面源碼並將其存儲到數組中
102     def get_data(self,url,endPage):
103         url = url + '&pn='
104         for i in range(1,endPage+1):
105             print u'爬蟲報告:爬蟲%d號正在加載中...' % i
106             myPage = urllib2.urlopen(url + str(i)).read()
107             # 將myPage中的html代碼處理並存儲到datas裏面
108             self.deal_data(myPage.decode('gbk'))
109             
110 
111     # 將內容從頁面代碼中摳出來
112     def deal_data(self,myPage):
113         myItems = re.findall('id="post_content.*?>(.*?)</div>',myPage,re.S)
114         for item in myItems:
115             data = self.myTool.Replace_Char(item.replace("\n","").encode('gbk'))
116             self.datas.append(data+'\n')
117 
118 
119 
120 #-------- 程序入口處 ------------------
121 print u"""#---------------------------------------
122 #   程序:百度貼吧爬蟲
123 #   版本:0.5
124 #   做者:why
125 #   日期:2013-05-16
126 #   語言:Python 2.7
127 #   操做:輸入網址後自動只看樓主並保存到本地文件
128 #   功能:將樓主發佈的內容打包txt存儲到本地。
129 #---------------------------------------
130 """
131 
132 # 以某小說貼吧爲例子
133 # bdurl = 'http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1'
134 
135 print u'請輸入貼吧的地址最後的數字串:'
136 bdurl = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/')) 
137 
138 #調用
139 mySpider = Baidu_Spider(bdurl)
140 mySpider.baidu_tieba()
相關文章
相關標籤/搜索