[Python]網絡爬蟲(九):百度貼吧的網絡爬蟲(v0.4)源碼及解析

轉自:http://blog.csdn.net/pleasecallmewhy/article/details/8934726html

百度貼吧的爬蟲製做和糗百的爬蟲製做原理基本相同,都是經過查看源碼扣出關鍵數據,而後將其存儲到本地txt文件。正則表達式

項目內容:數組

用Python寫的百度貼吧的網絡爬蟲。網絡

使用方法:app

新建一個BugBaidu.py文件,而後將代碼複製到裏面後,雙擊運行。ide

程序功能:post

將貼吧中樓主發佈的內容打包txt存儲到本地。編碼

原理解釋:url

首先,先瀏覽一下某一條貼吧,點擊只看樓主並點擊第二頁以後url發生了一點變化,變成了:spa

http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1

能夠看出來,see_lz=1是隻看樓主,pn=1是對應的頁碼,記住這一點爲之後的編寫作準備。

這就是咱們須要利用的url。

接下來就是查看頁面源碼。

首先把題目摳出來存儲文件的時候會用到。

能夠看到百度使用gbk編碼,標題使用h1標記:

<h1 class="core_title_txt" title="【原創】時尚首席(關於時尚,名利,事業,愛情,勵志)">【原創】時尚首席(關於時尚,名利,事業,愛情,勵志)</h1>

一樣,正文部分用div和class綜合標記,接下來要作的只是用正則表達式來匹配便可。

運行截圖:

2

生成的txt文件:

3

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序:百度貼吧爬蟲
#   版本:0.5
#   做者:why
#   日期:2013-05-16
#   語言:Python 2.7
#   操做:輸入網址後自動只看樓主並保存到本地文件
#   功能:將樓主發佈的內容打包txt存儲到本地。
#---------------------------------------
 
import string
import urllib2
import re

#----------- 處理頁面上的各類標籤 -----------
class HTML_Tool:
    # 用非 貪婪模式 匹配 \t 或者 \n 或者 空格 或者 超連接 或者 圖片
    BgnCharToNoneRex = re.compile("(\t|\n| |<a.*?>|<img.*?>)")
    
    # 用非 貪婪模式 匹配 任意<>標籤
    EndCharToNoneRex = re.compile("<.*?>")

    # 用非 貪婪模式 匹配 任意<p>標籤
    BgnPartRex = re.compile("<p.*?>")
    CharToNewLineRex = re.compile("(<br/>|</p>|<tr>|<div>|</div>)")
    CharToNextTabRex = re.compile("<td>")

    # 將一些html的符號實體轉變爲原始符號
    replaceTab = [("<","<"),(">",">"),("&","&"),("&","\""),(" "," ")]
    
    def Replace_Char(self,x):
        x = self.BgnCharToNoneRex.sub("",x)
        x = self.BgnPartRex.sub("\n    ",x)
        x = self.CharToNewLineRex.sub("\n",x)
        x = self.CharToNextTabRex.sub("\t",x)
        x = self.EndCharToNoneRex.sub("",x)

        for t in self.replaceTab:  
            x = x.replace(t[0],t[1])  
        return x  
    
class Baidu_Spider:
    # 申明相關的屬性
    def __init__(self,url):  
        self.myUrl = url + '?see_lz=1'
        self.datas = []
        self.myTool = HTML_Tool()
        print u'已經啓動百度貼吧爬蟲,咔嚓咔嚓'
  
    # 初始化加載頁面並將其轉碼儲存
    def baidu_tieba(self):
        # 讀取頁面的原始信息並將其從gbk轉碼
        myPage = urllib2.urlopen(self.myUrl).read().decode("gbk")
        # 計算樓主發佈內容一共有多少頁
        endPage = self.page_counter(myPage)
        # 獲取該帖的標題
        title = self.find_title(myPage)
        print u'文章名稱:' + title
        # 獲取最終的數據
        self.save_data(self.myUrl,title,endPage)

    #用來計算一共有多少頁
    def page_counter(self,myPage):
        # 匹配 "共有<span class="red">12</span>頁" 來獲取一共有多少頁
        myMatch = re.search(r'class="red">(\d+?)</span>', myPage, re.S)
        if myMatch:  
            endPage = int(myMatch.group(1))
            print u'爬蟲報告:發現樓主共有%d頁的原創內容' % endPage
        else:
            endPage = 0
            print u'爬蟲報告:沒法計算樓主發佈內容有多少頁!'
        return endPage

    # 用來尋找該帖的標題
    def find_title(self,myPage):
        # 匹配 <h1 class="core_title_txt" title="">xxxxxxxxxx</h1> 找出標題
        myMatch = re.search(r'<h1.*?>(.*?)</h1>', myPage, re.S)
        title = u'暫無標題'
        if myMatch:
            title  = myMatch.group(1)
        else:
            print u'爬蟲報告:沒法加載文章標題!'
        # 文件名不能包含如下字符: \ / : * ? " < > |
        title = title.replace('\\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')
        return title


    # 用來存儲樓主發佈的內容
    def save_data(self,url,title,endPage):
        # 加載頁面數據到數組中
        self.get_data(url,endPage)
        # 打開本地文件
        f = open(title+'.txt','w+')
        f.writelines(self.datas)
        f.close()
        print u'爬蟲報告:文件已下載到本地並打包成txt文件'
        print u'請按任意鍵退出...'
        raw_input();

    # 獲取頁面源碼並將其存儲到數組中
    def get_data(self,url,endPage):
        url = url + '&pn='
        for i in range(1,endPage+1):
            print u'爬蟲報告:爬蟲%d號正在加載中...' % i
            myPage = urllib2.urlopen(url + str(i)).read()
            # 將myPage中的html代碼處理並存儲到datas裏面
            self.deal_data(myPage.decode('gbk'))
            

    # 將內容從頁面代碼中摳出來
    def deal_data(self,myPage):
        myItems = re.findall('id="post_content.*?>(.*?)</div>',myPage,re.S)
        for item in myItems:
            data = self.myTool.Replace_Char(item.replace("\n","").encode('gbk'))
            self.datas.append(data+'\n')



#-------- 程序入口處 ------------------
print u"""#---------------------------------------
#   程序:百度貼吧爬蟲
#   版本:0.5
#   做者:why
#   日期:2013-05-16
#   語言:Python 2.7
#   操做:輸入網址後自動只看樓主並保存到本地文件
#   功能:將樓主發佈的內容打包txt存儲到本地。
#---------------------------------------
"""

# 以某小說貼吧爲例子
# bdurl = 'http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1'

print u'請輸入貼吧的地址最後的數字串:'
bdurl = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/')) 

#調用
mySpider = Baidu_Spider(bdurl)
mySpider.baidu_tieba()
相關文章
相關標籤/搜索