簡單實例


網絡爬蟲的第一步就是根據URL,獲取網頁的HTML信息。在Python3中,能夠使用urllib.request和requests進行網頁爬取。html

urllib庫是python內置的,無需咱們額外安裝,只要安裝了Python就能夠使用這個庫。
requests庫是第三方庫,須要咱們本身安裝。
requests庫強大好用,因此本文使用requests庫獲取網頁的HTML信息。requests庫的github地址:https://github.com/requests/requestspython

(1) requests安裝
在cmd中,使用以下指令安裝requests:git

pip install requests
1
或者:github

easy_install requests
1
(2) 簡單實例
requests庫的基礎方法以下:服務器


官方中文教程地址:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html網絡

requests庫的開發者爲咱們提供了詳細的中文教程,查詢起來很方便。本文不會對其全部內容進行講解,摘取其部分使用到的內容,進行實戰說明。網站

首先,讓咱們看下requests.get()方法,它用於向服務器發起GET請求,不瞭解GET請求沒有關係。咱們能夠這樣理解:get的中文意思是獲得、抓住,那這個requests.get()方法就是從服務器獲得、抓住數據,也就是獲取數據。讓咱們看一個例子(以 www.gitbook.cn爲例)來加深理解:ui

# -*- coding:UTF-8 -*-
import requestsurl

if __name__ == '__main__':
target = 'http://gitbook.cn/'
req = requests.get(url=target)
print(req.text)
1
2
3
4
5
6
7
requests.get()方法必須設置的一個參數就是url,由於咱們得告訴GET請求,咱們的目標是誰,咱們要獲取誰的信息。運行程序看下結果:.net

左側是咱們程序得到的結果,右側是咱們在www.gitbook.cn網站審查元素得到的信息。咱們能夠看到,咱們已經順利得到了該網頁的HTML信息。這就是一個最簡單的爬蟲實例,可能你會問,我只是爬取了這個網頁的HTML信息,有什麼用呢?客官稍安勿躁,接下來進入咱們的實戰正文。

相關文章
相關標籤/搜索