2,簡單的Python爬蟲

前言html

     根據上一篇 1,Python爬蟲環境的安裝 咱們已經在本地安裝好了Python環境,那麼這一篇就開始學習如何用Python來爬蟲!python

 

 環境:操做系統:Windows10瀏覽器

            IDE:   PyCharm2018.1學習

            解釋器:python3.6網站

 

1,只需短短4行url

     或許Python爬蟲給你們的感受就是比較高級,比較牛逼的一項技術,而其實呢,它的核心代碼就只有如下幾行!(至少對於初學者來講,只須要知道它如何使用)spa

1 import requests    # 導入requests模塊。若是報錯,就是沒有安裝該模塊;安裝:鼠標點擊紅色部分->【ALT+回車】->回車。或在命令行使用pip install requests安裝。
2 
3 url = "http://www.baidu.com"   # 要爬取網站的網址,必定要加http://
4 page = requests.get(url)    # 模擬請求(與瀏覽器原理相同)
5 print(page.text)    # 輸出網站的源碼(HTML代碼)

 

2,對比操作系統

     一開始你們(包括我本身)接觸比較多的多是urllib和urllib3;python2用的是urllib和urllib2,在python3中已經沒有urllib2了,因此在看教程的時候必定要看清是python2仍是python3。命令行

其實用哪一個庫都沒有太大關係,由於他們其實都是在底層實現了HTTP協議,而後本身再把接口封裝如下,理解了原理其實都是差很少的;可是推薦你們使用requests庫(我看不少大牛都推薦這個),他是個第三方庫(不是python自家的),因此須要安裝,代碼中給出了安裝方法。這個庫給個人感受就是使用起來更加簡單,可讀性很好,比較符合Python的風格,大牛們推薦他可能還有其餘緣由,有待學習!code

3,解析

    所謂爬蟲,其實也就是在互聯網這張大網中篩選咱們須要的信息。上面的代碼只是把整個頁面的內容下載下來了,並無什麼實際做用。而咱們實際須要的是其中的一些圖片或者某些文字,那就須要對這些下載下來的內容進行解析了,最簡單粗暴的方法是使用正則(re)表達式來匹配(這是必備的,網上有不少學習教程);而更好的方法是先使用xpath(一種解析html文檔的語法)獲取想要的內容,而後再用re處理獲取的內容,使內容更符合咱們須要。

4,要學什麼

    上面是讓你們更好地理解爬蟲,和基本步驟;下面就是初學須要學些什麼東西:

    爬蟲三部曲:

            1,下載頁面:使用requests下載網站頁面;學習requests模塊的基本使用。

            2,解析頁面:在下載下來的頁面中獲取想要的信息;學習lxml模塊,re模塊,xpath語法和re語法的基本使用。

            3,保存信息:把解析後的信息保存到本地(先學會保存到Excel表);學習xlwt模塊。

相關文章
相關標籤/搜索