小白學 Python 爬蟲（32）：異步請求庫 AIOHTTP 基礎入門

import requests
from datetime import datetime

start = datetime.now()

for i in range(100):
    print(requests.get('https://www.baidu.com/').text)

end = datetime.now()

print("request花費時間爲：", end - start)複製代碼

結果以下：

request花費時間爲： 0:00:13.410708複製代碼

其餘的打印小編這裏就不貼了，單純的貼一下最後時間差的打印。

AioHttp 版示例

示例代碼以下：

import aiohttp
import asyncio
from datetime import datetime

async def main():
    async with aiohttp.ClientSession() as client:
        html = await client.get('https://www.baidu.com/')
        print(html)

loop = asyncio.get_event_loop()

tasks = []
for i in range(100):
    task = loop.create_task(main())
    tasks.append(task)

start = datetime.now()

loop.run_until_complete(main())

end = datetime.now()

print("aiohttp花費時間爲：", end - start)複製代碼

結果以下：

aiohttp花費時間爲： 0:00:00.249995複製代碼

各位同窗，看到了沒，這個訪問速度天差地別啊，一個用了 13s 多，一個連 1s 都沒到，這中間的差距小編已經不想算了，太大了。

不過訪問速度這麼快，訪問有 ip 防護的網站，封的速度也挺快的，可能爬蟲剛開始運行，茶杯子都沒端起來就已經把 ip 封掉了。

基操

接下來咱們簡單的瞭解一下 AIOHTTP 的一些基本操做。

發請求

示例代碼：

import aiohttp
import asyncio

async def aio_1():
    async with aiohttp.ClientSession() as session:
        async with session.get('https://www.baidu.com/') as resp:
            print(resp.status)
            print(await resp.text())

loop = asyncio.get_event_loop()
loop.run_until_complete(aio_1())複製代碼

結果就不貼了，這裏主要是給各位同窗演示如何使用 AIOHTTP 發送請求。

這裏，咱們使用一個 ClientSession 做爲被調用的 session 和一個 ClientResponse 對象做爲響應結果。

一下內容爲來自官方文檔的提示：

注意：

不要爲每一個請求建立會話。每一個應用程序極可能須要一個會話來執行全部請求。

更復雜的狀況可能須要在每一個站點上進行一次會話，例如，一個會話用於Github，另外一個會話用於Facebook API。不管如何，爲每一個請求創建會話是一個很是糟糕的主意。

會話內部包含一個鏈接池。鏈接重用和保持活動狀態（默認狀況下均處於啓用狀態）可能會提升總體性能。

響應

先看個示例：

async def aio_2():
    async with aiohttp.ClientSession() as session:
        async with session.get('https://www.geekdigging.com/') as resp:
            print(resp.status)
            print(await resp.text())

loop = asyncio.get_event_loop()
loop.run_until_complete(aio_2())複製代碼

AIOHTTP 爲咱們提供了自動解碼的功能，

這裏的示例訪問小編的博客站，其中首頁有大量的中文內容，若是解碼不正確中文是不能正常顯示的。結果小編就不貼了，解碼正確。

固然，若是咱們發現自動解碼不正確的時候能夠認爲的設定解碼類型，代碼以下：

await resp.text(encoding='gb2312')複製代碼

響應咱們一樣能夠經過二進制字節流的方式來進行訪問，代碼以下：

print(await resp.read())複製代碼

AIOHTTP 還爲咱們內置了一個 JSON 解碼器，能夠供咱們直接處理 JSON 格式的響應數據，示例代碼以下：

print(await resp.json())複製代碼

超時

在前面咱們介紹其餘請求庫的時候，都有遇到過超時的問題，通常而言，咱們會爲請求添加一個超時時間，那麼在 AIOHTTP 中，超時時間的添加以下示例代碼：

async def aio_3():
    timeout = aiohttp.ClientTimeout(total=60)
    async with aiohttp.ClientSession(timeout = timeout) as session:
        async with session.get('https://www.geekdigging.com/', timeout = timeout) as resp:
            print(resp.status)

loop = asyncio.get_event_loop()
loop.run_until_complete(aio_3())複製代碼

若是咱們不設置超時時間 AIOHTTP 爲咱們默認設置的超時時間是 5 分鐘，若是咱們設置了超時時間，則以咱們設置的爲準，超時時間的設置能夠在兩個地方設置，小編已經在示例中都舉例出來了。

咱們能夠直接在建立 ClientSession 的時候直接設置超時時間，這時，整個超時時間是在當前的會話中都有效的，若是在後面的調用中如 ClientSession.get()： 中從新設置超時時間，則會覆蓋咱們在建立 ClientSession 設置的超時時間。

而 ClientTimeout 則還有不少種屬性能夠進行設置，列表以下：

total：整個操做時間包括鏈接創建，請求發送和響應讀取。
connect：該時間包括創建新鏈接或在超過池鏈接限制時等待池中的空閒鏈接的鏈接。
sock_connect：鏈接到對等點以進行新鏈接的超時，不是從池中給出的。
sock_read：從對等體讀取新數據部分之間的時間段內容許的最大超時。

默認超時以下：

aiohttp.ClientTimeout(total=5*60, connect=None,
                      sock_connect=None, sock_read=None)複製代碼

示例代碼

本系列的全部代碼小編都會放在代碼管理倉庫 Github 和 Gitee 上，方便你們取用。

示例代碼-Github

示例代碼-Gitee

若是個人文章對您有幫助，請掃碼關注下做者的公衆號：獲取最新干貨推送：）

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。