轉-python異步IO-asyncio

原文鏈接 http://blog.chinaunix.net/uid-190176-id-4223282.htmlcss

前言
異步操做在計算機軟硬件體系中是一個廣泛概念,根源在於參與協做的各實體處理速度上有明顯差別。軟件開發中遇到的多數狀況是CPU與IO的速度不匹配,因此異步IO存在於各類編程框架中,客戶端好比瀏覽器,服務端好比node.js。本文主要分析Python異步IO。
 
Python 3.4標準庫有一個新模塊asyncio,用來支持異步IO,不過目前API狀態是provisional,意味着不保證向後兼容性,甚至可能從標準庫中移除(可能性極低)。若是關注PEP和Python-Dev會發現該模塊醞釀了很長時間,可能後續有API和實現上的調整,但毋庸置疑asyncio很是實用且功能強大,值得學習和深究。
 
示例
asyncio主要應對TCP/UDP socket通訊,從容管理大量鏈接,而無需建立大量線程,提升系統運行效率。此處將官方文檔的一個示例作簡單改造,實現一個HTTP長鏈接benchmark工具,用於診斷WEB服務器長鏈接處理能力。
 
功能概述:
每隔10毫秒建立10個鏈接,直到目標鏈接數(好比10k),同時每一個鏈接都會規律性的向服務器發送HEAD請求,以維持HTTP keepavlie。
 
代碼以下:
import argparse
import asyncio
import functools
import logging
import random
import urllib.parse

loop = asyncio.get_event_loop()

@asyncio.coroutine
def print_http_headers(no, url, keepalive):
    url = urllib.parse.urlsplit(url)
    wait_for = functools.partial(asyncio.wait_for, timeout=3, loop=loop)
    query = ('HEAD {url.path} HTTP/1.1\r\n'
             'Host: {url.hostname}\r\n'
             '\r\n').format(url=url).encode('utf-8')

    rd, wr = yield from wait_for(asyncio.open_connection(url.hostname, 80))
    while True:
        wr.write(query)
   
        while True:
            line = yield from wait_for(rd.readline())
            if not line: # end of connection
                wr.close()
                return no
            line = line.decode('utf-8').rstrip()
            if not line: # end of header
                break
            logging.debug('(%d) HTTP header> %s' % (no, line))

        yield from asyncio.sleep(random.randint(1, keepalive//2))


@asyncio.coroutine
def do_requests(args):
    conn_pool = set()
    waiter = asyncio.Future()

    def _on_complete(fut):
        conn_pool.remove(fut)
        exc, res = fut.exception(), fut.result()
        if exc is not None:
            logging.info('conn#{} exception'.format(exc))
        else:
            logging.info('conn#{} result'.format(res))

        if not conn_pool:
            waiter.set_result('event loop is done')

    for i in range(args.connections):
        fut = asyncio.async(print_http_headers(i, args.url, args.keepalive))
        fut.add_done_callback(_on_complete)
        conn_pool.add(fut)
        if i % 10 == 0:
            yield from asyncio.sleep(0.01)

    logging.info((yield from waiter))


def main():
    parser = argparse.ArgumentParser(description='asyncli')
    parser.add_argument('url', help='page address')
    parser.add_argument('-c', '--connections', type=int, default=1,
                        help='number of connections simultaneously')
    parser.add_argument('-k', '--keepalive', type=int, default=60,
                        help='HTTP keepalive timeout')
    args = parser.parse_args()

    logging.basicConfig(level=logging.INFO, format='%(asctime)s %(message)s')
    loop.run_until_complete(do_requests(args))
    loop.close()


if __name__ == '__main__':
    main()
 
測試與分析
硬件:CPU 2.3GHz / 2 cores,RAM 2GB
軟件:CentOS 6.5(kernel 2.6.32), Python 3.3 (pip install asyncio), nginx 1.4.7
參數設置:ulimit -n 10240;nginx worker的鏈接數改成10240
 
啓動WEB服務器,只需一個worker進程:
  1. # ../sbin/nginx
  2. # ps ax | grep nginx
  3. 2007 ? Ss 0:00 nginx: master process ../sbin/nginx
  4. 2008 ? S 0:00 nginx: worker process
 
啓動benchmark工具, 發起10k個鏈接,目標URL是nginx的默認測試頁面:
  1. $ python asyncli.py http://10.211.55.8/ -c 10000
 
nginx日誌統計平均每秒請求數:
  1. # tail -1000000 access.log | awk '{ print $4 }' | sort | uniq -c | awk '{ cnt+=1; sum+=$1 } END { printf "avg = %d\n", sum/cnt }'
  2. avg = 548
 
top部分輸出:
  1. VIRT   RES   SHR  S %CPU  %MEM   TIME+  COMMAND
  2. 657m   115m  3860 R 60.2  6.2   4:30.02  python
  3. 54208  10m   848  R 7.0   0.6   0:30.79  nginx
 
總結:
1. Python實現簡潔明瞭。不到80行代碼,只用到標準庫,邏輯直觀,想象下C/C++標準庫實現這些功能,頓覺「人生苦短,我用Python」。
 
2. Python運行效率不理想。當鏈接創建後,客戶端和服務端的數據收發邏輯差很少,看上面top輸出,Python的CPU和RAM佔用基本都是nginx的10倍,意味着效率相差100倍(CPU x RAM),側面說明了Python與C的效率差距。這個對比雖然有些極端,畢竟nginx不只用C且爲CPU/RAM佔用作了深度優化,但類似任務效率相差兩個數量級,除非是BUG,說明架構設計的出發點就是不一樣的,Python優先可讀易用而性能次之,nginx就是一個高度優化的WEB服務器,開發一個module都比較麻煩,要複用它的異步框架,簡直難上加難。開發效率與運行效率的權衡,永遠都存在。
 
3. 單線程異步IO v.s. 多線程同步IO。上面的例子是單線程異步IO,其實不寫demo就知道多線程同步IO效率低得多,每一個線程一個鏈接?10k個線程,僅線程棧就佔用600+MB(64KB * 10000)內存,加上線程上下文切換和GIL,基本就是噩夢。
 
ayncio核心概念
如下是學習asyncio時須要理解的四個核心概念,更多細節請看<參考資料>
1. event loop。單線程實現異步的關鍵就在於這個高層事件循環,它是同步執行的。
2. future。異步IO有不少異步任務構成,而每一個異步任務都由一個future控制。
3. coroutine。每一個異步任務具體的執行邏輯由一個coroutine來體現。
4. generator(yield & yield from) 。在asyncio中大量使用,是不可忽視的語法細節。
 
參考資料
1. asyncio – Asynchronous I/O, event loop, coroutines and tasks,  https://docs.python.org/3/library/asyncio.html
2. PEP 3156, Asynchronous IO Support Rebooted: the "asyncio」 Module,  http://legacy.python.org/dev/peps/pep-3156/
3. PEP 380, Syntax for Delegating to a Subgenerator,  http://legacy.python.org/dev/peps/pep-0380/
4. PEP 342, Coroutines via Enhanced Generators,  http://legacy.python.org/dev/peps/pep-0342/
5. PEP 255, Simple Generators,  http://legacy.python.org/dev/peps/pep-0255/
 
相關文章
相關標籤/搜索