2，簡單的Python爬蟲

時間 2019-11-20

標籤簡單 python 爬蟲欄目 Python 简体版

原文原文鏈接

前言html

根據上一篇 1，Python爬蟲環境的安裝咱們已經在本地安裝好了Python環境，那麼這一篇就開始學習如何用Python來爬蟲！python

環境：操做系統：Windows10瀏覽器

IDE： PyCharm2018.1學習

解釋器：python3.6網站

1，只需短短4行url

或許Python爬蟲給你們的感受就是比較高級，比較牛逼的一項技術，而其實呢，它的核心代碼就只有如下幾行！（至少對於初學者來講，只須要知道它如何使用）spa

1 import requests    # 導入requests模塊。若是報錯，就是沒有安裝該模塊；安裝：鼠標點擊紅色部分->【ALT+回車】->回車。或在命令行使用pip install requests安裝。
2 
3 url = "http://www.baidu.com"   # 要爬取網站的網址，必定要加http://
4 page = requests.get(url)    # 模擬請求（與瀏覽器原理相同）
5 print(page.text)    # 輸出網站的源碼（HTML代碼）

2，對比操作系統

一開始你們(包括我本身)接觸比較多的多是urllib和urllib3；python2用的是urllib和urllib2，在python3中已經沒有urllib2了，因此在看教程的時候必定要看清是python2仍是python3。命令行

其實用哪一個庫都沒有太大關係，由於他們其實都是在底層實現了HTTP協議，而後本身再把接口封裝如下，理解了原理其實都是差很少的；可是推薦你們使用requests庫(我看不少大牛都推薦這個)，他是個第三方庫(不是python自家的)，因此須要安裝，代碼中給出了安裝方法。這個庫給個人感受就是使用起來更加簡單，可讀性很好，比較符合Python的風格，大牛們推薦他可能還有其餘緣由，有待學習！code

3，解析

所謂爬蟲，其實也就是在互聯網這張大網中篩選咱們須要的信息。上面的代碼只是把整個頁面的內容下載下來了，並無什麼實際做用。而咱們實際須要的是其中的一些圖片或者某些文字，那就須要對這些下載下來的內容進行解析了，最簡單粗暴的方法是使用正則(re)表達式來匹配(這是必備的，網上有不少學習教程)；而更好的方法是先使用xpath(一種解析html文檔的語法)獲取想要的內容，而後再用re處理獲取的內容，使內容更符合咱們須要。

4，要學什麼

上面是讓你們更好地理解爬蟲，和基本步驟；下面就是初學須要學些什麼東西：

爬蟲三部曲：

1，下載頁面：使用requests下載網站頁面；學習requests模塊的基本使用。

2，解析頁面：在下載下來的頁面中獲取想要的信息；學習lxml模塊，re模塊，xpath語法和re語法的基本使用。

3，保存信息：把解析後的信息保存到本地(先學會保存到Excel表)；學習xlwt模塊。