[Python] 網絡爬蟲和正則表達式學習總結

時間 2019-11-18

原文原文鏈接

　　之前在學校作科研都是直接利用網上共享的一些數據，就像咱們常常說的dataset、beachmark等等。可是，對於實際的工業需求來講，爬取網絡的數據是必須的而且是首要的。最近在國內一家互聯網公司實習，個人mentor交給個人第一件事就是去網絡上爬取數據，並對爬取的數據進行相關的分析和解析。html

1.利用urllib2對指定的URL抓取網頁內容

　　網絡爬蟲（Web Spider），顧名思義就是將龐大的互聯網看作是一張大網，而咱們要作的就是用代碼去構造一個相似於爬蟲的實體，在這張大網上爬取咱們須要的數據。python

　　所謂網頁抓取，就是把URL地址中指定的網絡資源從網絡流中讀取出來，保存到本地。相似於使用程序模擬IE瀏覽器的功能，把URL做爲HTTP請求的內容發送到服務器端，而後讀取服務器端的響應資源。Python中提供了專門抓取網絡的組件urllib和urllib2。web

　　最簡單的抓取網絡的Python代碼，四行就能夠搞定：正則表達式

1 import urllib2  
2 response = urllib2.urlopen('http://www.toutiao.com/')  
3 html = response.read()  
4 print html

　　顯示抓取的結果：express

　　咱們能夠打開百度主頁，右擊，選擇查看源代碼（火狐OR谷歌瀏覽器都可），會發現也是徹底同樣的內容。也就是說，上面這四行代碼將咱們訪問百度時瀏覽器收到的代碼們所有打印了出來。這就是一個最簡單的利用urllib2進行網頁爬取的例子。編程

　　固然，有的網站爲了防止爬蟲，可能會拒絕爬蟲的請求，這就須要咱們來修改http中的Header項了。還有一些站點有所謂的反盜鏈設置，其實說穿了很簡單，就是檢查你發送請求的header裏面，referer站點是否是他本身，因此咱們只須要像把headers的referer改爲該網站便可。有關Header項的修改請轉至下邊的連接查看，裏邊詳細地介紹了Header的修改、Cookie和表單的處理，等等。網頁爬蟲

　　1）urllib2的使用細節和抓站技巧
瀏覽器

　　2）用Python爬蟲抓站的一些技巧總結ruby

　　3）用python寫爬蟲，去爬csdn的內容,完美解決 403 Forbidden服務器

　　4）用Python爬取網頁或下載文檔的登錄問題

　　5）用python2和python3假裝瀏覽器爬取網頁

　　6）Python專題教程：抓取網站，模擬登錄，抓取動態網頁

2. 使用正則表達式過濾抓取到的網頁信息

　　若是說網頁爬蟲爬取的網頁信息是數據大海的話，那麼正則表達式就是咱們進行「大海撈針」的工具。

　　首先聲明一點，正則表達式不是Python的語法，並不屬於Python，其餘的語言中也一樣支持正則表達式的使用。具體來講，它是一種強大的字符串匹配和處理規則。

2.1 正則表達式介紹

　　下圖展現了使用正則表達式進行匹配的流程：

　　下圖列出了Python支持的正則表達式元字符和語法：

2.1.1 正則表達式元字符

2.1.2 數量詞的貪婪模式與非貪婪模式

　　正則表達式一般用於在文本中查找匹配的字符串。貪婪模式，老是嘗試匹配儘量多的字符；非貪婪模式則相反，老是嘗試匹配儘量少的字符。Python裏數量詞默認是貪婪的。

　　例如：正則表達式"ab*"若是用於查找"abbbc"，將找到"abbb"。而若是使用非貪婪的數量詞"ab*?"，將找到"a"。

2.1.3 反斜槓的問題

　　與大多數編程語言相同，正則表達式裏使用"\"做爲轉義字符，這就可能形成反斜槓困擾。假如你須要匹配文本中的字符"\"，那麼使用編程語言表示的正則表達式裏將須要4個反斜槓"\\\\"：第一個和第三個用於在編程語言裏將第二個和第四個轉義成反斜槓，轉換成兩個反斜槓\\後再在正則表達式裏轉義成一個反斜槓用來匹配反斜槓\。這樣顯然是很是麻煩的。

　　Python裏的原生字符串很好地解決了這個問題，這個例子中的正則表達式可使用r"\\"表示。一樣，匹配一個數字的"\\d"能夠寫成r"\d"

2.2 Python的re模塊

　　Python經過re模塊提供對正則表達式的支持。

　　使用re的通常步驟是：

　　Step1：先將正則表達式的字符串形式編譯爲Pattern實例。

　　Step2：而後使用Pattern實例處理文本並得到匹配結果（一個Match實例）。

　　Step3：最後使用Match實例得到信息，進行其餘的操做。

　　一個使用Python的re模塊進行正則表達式匹配的例子：

# -*- coding: utf-8 -*-  
#一個簡單的re實例，匹配字符串中的hello字符串  
  
#導入re模塊  
import re  
   
# 將正則表達式編譯成Pattern對象，注意hello前面的r的意思是「原生字符串」  
pattern = re.compile(r'hello')  
   
# 使用Pattern匹配文本，得到匹配結果，沒法匹配時將返回None  
match1 = pattern.match('hello world!')  
match2 = pattern.match('helloo world!')  
match3 = pattern.match('helllo world!')  
  
#若是match1匹配成功  
if match1:  
    # 使用Match得到分組信息  
    print match1.group()  
else:  
    print 'match1匹配失敗！'  
  
  
#若是match2匹配成功  
if match2:  
    # 使用Match得到分組信息  
    print match2.group()  
else:  
    print 'match2匹配失敗！'  
  
  
#若是match3匹配成功  
if match3:  
    # 使用Match得到分組信息  
    print match3.group()  
else:  
    print 'match3匹配失敗！'

　　輸出結果：

　　　　hello

　　　 match3匹配失敗！

　　固然，也能夠省略編譯pattern的過程，以下所示：

# -*- coding: utf-8 -*-  
#一個簡單的re實例，匹配字符串中的hello字符串  
import re  
  
m = re.match(r'hello', 'hello world!')  
print m.group()

　　除了match之外，Python中還提供了其餘的匹配模式，能夠針對不一樣的環境和用途來選擇不一樣的匹配模式。　　

　　1）match：只從字符串的開始與正則表達式匹配，匹配成功返回matchobject，不然返回none；
　　2）search：將字符串的全部字串嘗試與正則表達式匹配，若是全部的字串都沒有匹配成功，返回none，不然返回matchobject；（re.search至關於perl中的默認行爲）

　　3）findall：匹配全部匹配成功的結果。

　　詳細的使用細則，能夠查看下邊的內容：

　　1）Python正則表達式的七個使用範例

　　2）Python中正則表達式教程

　　固然，若是你以爲使用正則表達式太繁瑣的話，Python提供了BeautifulSoup插件來取代正則表達式，進行網頁的解析。想了解有關BeautifulSoup方面的知識，請移至下邊連接：

　　Python抓取網頁&批量下載文件方法（正則表達式+BeautifulSoup）

2.3 Python正則表達式彙總

　　2.3.1 正則表達式模式

　　模式字符串使用特殊的語法來表示一個正則表達式：

　　字母和數字表示他們自身。一個正則表達式模式中的字母和數字匹配一樣的字符串。

　　多數字母和數字前加一個反斜槓時會擁有不一樣的含義。

　　標點符號只有被轉義時才匹配自身，不然它們表示特殊的含義。

　　反斜槓自己須要使用反斜槓轉義。

　　因爲正則表達式一般都包含反斜槓，因此你最好使用原始字符串來表示它們。模式元素(如 r'/t'，等價於'//t')匹配相應的特殊字符。

　　下表列出了正則表達式模式語法中的特殊元素。若是你使用模式的同時提供了可選的標誌參數，某些模式元素的含義會改變。

模式	描述
^	匹配字符串的開頭
$	匹配字符串的末尾。
.	匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則能夠匹配包括換行符的任意字符。
[...]	用來表示一組字符,單獨列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c以外的字符。
re*	匹配0個或多個的表達式。
re+	匹配1個或多個的表達式。
re?	匹配0個或1個由前面的正則表達式定義的片斷，非貪婪方式
re{ n}
re{ n,}	精確匹配n個前面表達式。
re{ n, m}	匹配 n 到 m 次由前面的正則表達式定義的片斷，貪婪方式
a\| b	匹配a或b
(re)	G匹配括號內的表達式，也表示一個組
(?imx)	正則表達式包含三種可選標誌：i, m, 或 x 。隻影響括號中的區域。
(?-imx)	正則表達式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域。
(?: re)	相似 (...), 可是不表示一個組
(?imx: re)	在括號中使用i, m, 或 x 可選標誌
(?-imx: re)	在括號中不使用i, m, 或 x 可選標誌
(?#...)	註釋.
(?= re)	前向確定界定符。若是所含正則表達式，以 ... 表示，在當前位置成功匹配時成功，不然失敗。但一旦所含表達式已經嘗試，匹配引擎根本沒有提升；模式的剩餘部分還要嘗試界定符的右邊。
(?! re)	前向否認界定符。與確定界定符相反；當所含表達式不能在字符串當前位置匹配時成功
(?> re)	匹配的獨立模式，省去回溯。
\w	匹配字母數字
\W	匹配非字母數字
\s	匹配任意空白字符，等價於 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意數字，等價於 [0-9].
\D	匹配任意非數字
\A	匹配字符串開始
\Z	匹配字符串結束，若是是存在換行，只匹配到換行前的結束字符串。c
\z	匹配字符串結束
\G	匹配最後匹配完成的位置。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 能夠匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等.	匹配一個換行符。匹配一個製表符。等
\1...\9	匹配第n個分組的子表達式。
\10	匹配第n個分組的子表達式，若是它經匹配。不然指的是八進制字符碼的表達式。

　　2.3.2 正則表達式實例

　　字符匹配:

實例	描述
python	匹配 "python".

　　字符類:

實例	描述
[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"
[aeiou]	匹配中括號內的任意一個字母
[0-9]	匹配任何數字。相似於 [0123456789]
[a-z]	匹配任何小寫字母
[A-Z]	匹配任何大寫字母
[a-zA-Z0-9]	匹配任何字母及數字
[^aeiou]	除了aeiou字母之外的全部字符
[^0-9]	匹配除了數字外的字符

　　特殊字符類：

實例	描述
.	匹配除 "\n" 以外的任何單個字符。要匹配包括 '\n' 在內的任何字符，請使用象 '[.\n]' 的模式。
\d	匹配一個數字字符。等價於 [0-9]。
\D	匹配一個非數字字符。等價於 [^0-9]。
\s	匹配任何空白字符，包括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等價於 [^ \f\n\r\t\v]。
\w	匹配包括下劃線的任何單詞字符。等價於'[A-Za-z0-9_]'。
\W	匹配任何非單詞字符。等價於 '[^A-Za-z0-9_]'。