簡單實例

時間 2019-11-14

標籤簡單實例简体版

原文原文鏈接

網絡爬蟲的第一步就是根據URL，獲取網頁的HTML信息。在Python3中，能夠使用urllib.request和requests進行網頁爬取。html

urllib庫是python內置的，無需咱們額外安裝，只要安裝了Python就能夠使用這個庫。
requests庫是第三方庫，須要咱們本身安裝。
requests庫強大好用，因此本文使用requests庫獲取網頁的HTML信息。requests庫的github地址：https://github.com/requests/requestspython

(1) requests安裝
在cmd中，使用以下指令安裝requests：git

pip install requests
1
或者：github

easy_install requests
1
(2) 簡單實例
requests庫的基礎方法以下：服務器

官方中文教程地址：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html網絡

requests庫的開發者爲咱們提供了詳細的中文教程，查詢起來很方便。本文不會對其全部內容進行講解，摘取其部分使用到的內容，進行實戰說明。網站

首先，讓咱們看下requests.get()方法，它用於向服務器發起GET請求，不瞭解GET請求沒有關係。咱們能夠這樣理解：get的中文意思是獲得、抓住，那這個requests.get()方法就是從服務器獲得、抓住數據，也就是獲取數據。讓咱們看一個例子(以 www.gitbook.cn爲例)來加深理解：ui

# -*- coding:UTF-8 -*-
import requestsurl

if __name__ == '__main__':
target = 'http://gitbook.cn/'
req = requests.get(url=target)
print(req.text)
1
2
3
4
5
6
7
requests.get()方法必須設置的一個參數就是url，由於咱們得告訴GET請求，咱們的目標是誰，咱們要獲取誰的信息。運行程序看下結果：.net

左側是咱們程序得到的結果，右側是咱們在www.gitbook.cn網站審查元素得到的信息。咱們能夠看到，咱們已經順利得到了該網頁的HTML信息。這就是一個最簡單的爬蟲實例，可能你會問，我只是爬取了這個網頁的HTML信息，有什麼用呢？客官稍安勿躁，接下來進入咱們的實戰正文。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。