------------恢復內容開始------------python
每次講爬蟲的時候都會從「發送請求」 開始講,講到解析頁面的時候可能大部分讀者都會卡住,由於這部分確實須要一點XPATH或者CSS選擇器的前置知識。那麼有沒有不須要這麼複雜的操做就能把頁面信息讀取出來的方法呢?數組
答案是:有。bash
Lassie是一個超簡單的頁面信息檢索工具,它可以經過幾行代碼就獲取到頁面上的靜態信息,好比:頁面描述、視頻連接、頁面標題,頁面關鍵詞、圖像連接等等。併發
爲何超簡單?感覺一下:ide
import lassie data = lassie.fetch('https://www.zhihu.com') print(data)
你只要fetch一下頁面,就能獲得如下的運行結果(輸出爲字典):工具
(base) F:\push191112>python test.py
{'images': [{'src': 'https://static.zhihu.com/static/favicon.ico', 'type': 'favicon'}], 'videos': [], 'description': '有問題,上知乎。知乎,可信賴的問答社區,以讓每一個人高效得到可信賴的解答爲使命。知乎 憑藉認真、專業和友善的社區氛圍,結構化、易得到的優質內容,基於問答的內容生產方式和獨特的社區機制,吸 引、彙集了各行各業中大量的親歷者、內行人、領域專家、領域愛好者,將高質量的內容透過人的節點來成規模地 生產和分享。用戶經過問答等交流方式創建信任和鏈接,打造和提高我的影響力,並發現、得到新機會。', 'locale': 'zh_CN', 'url': 'https://www.zhihu.com', 'title': '知乎 - 有問題,上知乎', 'status_code': 200}
若是你尚未安裝Python,或者須要Python學習資料的小夥伴能夠點擊下方連接自行獲取學習
http://note.youdao.com/noteshare?id=7e3c432b74512d52b75aafc4609451b9fetch
安裝完成後,請打開你的CMD/Terminal(終端)輸入如下命令:ui
pip install lassieurl
便可成功安裝lassie.
如今,用這個工具爬取咱們上篇文章的圖片連接吧!
import lassie data = lassie.fetch('https://pythondict.com/ai/python-suicide-detect-svm/') print(data['images'])
結果:
[{'src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'secure_src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'og:image'},
{'src':
'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'twitter:image'},
{'src': 'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg', 'type': 'favicon'}]
固然,咱們還能夠用列表解析式,把全部連接放到一個數組裏:
print([i['src'] for i in data['images']])
結果:
['https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png',
'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png',
'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg']
怎麼樣,是否是這個工具拿來爬靜態頁面實在太方便了!惟一的缺點就是它沒法爬取頁面中詳細的文本內容,僅僅只能用來提取圖片、視頻和頁面相關的信息,若是你的爬蟲是隻須要爬取靜態頁面上的圖片和視頻,那這個庫簡直是神器啊。
------------恢復內容結束------------