python3下multiprocessing、threading和gevent性能對比----暨進程池、線程池和協程池性能對比

python3下multiprocessing、threading和gevent性能對比----暨進程池、線程池和協程池性能對比

 

        目前計算機程序通常會遇到兩類I/O:硬盤I/O和網絡I/O。我就針對網絡I/O的場景分析下python3下進程、線程、協程效率的對比。進程採用multiprocessing.Pool進程池,線程是本身封裝的進程池,協程採用gevent的庫。用python3自帶的urlllib.request和開源的requests作對比。代碼以下:python

 

[python]  view plain  copy
 
  1. import urllib.request  
  2. import requests  
  3. import time  
  4. import multiprocessing  
  5. import threading  
  6. import queue  
  7.   
  8. def startTimer():  
  9.     return time.time()  
  10.   
  11. def ticT(startTime):  
  12.     useTime = time.time() - startTime  
  13.     return round(useTime, 3)  
  14.   
  15. #def tic(startTime, name):  
  16. #    useTime = time.time() - startTime  
  17. #    print('[%s] use time: %1.3f' % (name, useTime))  
  18.   
  19. def download_urllib(url):  
  20.     req = urllib.request.Request(url,  
  21.             headers={'user-agent': 'Mozilla/5.0'})  
  22.     res = urllib.request.urlopen(req)  
  23.     data = res.read()  
  24.     try:  
  25.         data = data.decode('gbk')  
  26.     except UnicodeDecodeError:  
  27.         data = data.decode('utf8', 'ignore')  
  28.     return res.status, data  
  29.   
  30. def download_requests(url):  
  31.     req = requests.get(url,  
  32.             headers={'user-agent': 'Mozilla/5.0'})  
  33.     return req.status_code, req.text  
  34.   
  35. class threadPoolManager:  
  36.     def __init__(self,urls, workNum=10000,threadNum=20):  
  37.         self.workQueue=queue.Queue()  
  38.         self.threadPool=[]  
  39.         self.__initWorkQueue(urls)  
  40.         self.__initThreadPool(threadNum)  
  41.   
  42.     def __initWorkQueue(self,urls):  
  43.         for i in urls:  
  44.             self.workQueue.put((download_requests,i))  
  45.   
  46.     def __initThreadPool(self,threadNum):  
  47.         for i in range(threadNum):  
  48.             self.threadPool.append(work(self.workQueue))  
  49.   
  50.     def waitAllComplete(self):  
  51.         for i in self.threadPool:  
  52.             if i.isAlive():  
  53.                 i.join()  
  54.   
  55. class work(threading.Thread):  
  56.     def __init__(self,workQueue):  
  57.         threading.Thread.__init__(self)  
  58.         self.workQueue=workQueue  
  59.         self.start()  
  60.     def run(self):  
  61.         while True:  
  62.             if self.workQueue.qsize():  
  63.                 do,args=self.workQueue.get(block=False)  
  64.                 do(args)  
  65.                 self.workQueue.task_done()  
  66.             else:  
  67.                 break  
  68.   
  69. urls = ['http://www.ustchacker.com'] * 10  
  70. urllibL = []  
  71. requestsL = []  
  72. multiPool = []  
  73. threadPool = []  
  74. N = 20  
  75. PoolNum = 100  
  76.   
  77. for i in range(N):  
  78.     print('start %d try' % i)  
  79.     urllibT = startTimer()  
  80.     jobs = [download_urllib(url) for url in urls]  
  81.     #for status, data in jobs:  
  82.     #    print(status, data[:10])  
  83.     #tic(urllibT, 'urllib.request')  
  84.     urllibL.append(ticT(urllibT))  
  85.     print('1')  
  86.       
  87.     requestsT = startTimer()  
  88.     jobs = [download_requests(url) for url in urls]  
  89.     #for status, data in jobs:  
  90.     #    print(status, data[:10])  
  91.     #tic(requestsT, 'requests')  
  92.     requestsL.append(ticT(requestsT))  
  93.     print('2')  
  94.       
  95.     requestsT = startTimer()  
  96.     pool = multiprocessing.Pool(PoolNum)  
  97.     data = pool.map(download_requests, urls)  
  98.     pool.close()  
  99.     pool.join()  
  100.     multiPool.append(ticT(requestsT))  
  101.     print('3')  
  102.   
  103.     requestsT = startTimer()  
  104.     pool = threadPoolManager(urls, threadNum=PoolNum)  
  105.     pool.waitAllComplete()  
  106.     threadPool.append(ticT(requestsT))  
  107.     print('4')  
  108.   
  109. import matplotlib.pyplot as plt  
  110. x = list(range(1, N+1))  
  111. plt.plot(x, urllibL, label='urllib')  
  112. plt.plot(x, requestsL, label='requests')  
  113. plt.plot(x, multiPool, label='requests MultiPool')  
  114. plt.plot(x, threadPool, label='requests threadPool')  
  115. plt.xlabel('test number')  
  116. plt.ylabel('time(s)')  
  117. plt.legend()  
  118. plt.show()  

運行結果以下:

 

 

        從上圖能夠看出,python3自帶的urllib.request效率仍是不如開源的requests,multiprocessing進程池效率明顯提高,但還低於本身封裝的線程池,有一部分緣由是建立、調度進程的開銷比建立線程高(測試程序中我把建立的代價也包括在裏面)。網絡

        下面是gevent的測試代碼:app

 

[python]  view plain  copy
 
  1. import urllib.request  
  2. import requests  
  3. import time  
  4. import gevent.pool  
  5. import gevent.monkey  
  6.   
  7. gevent.monkey.patch_all()  
  8.   
  9. def startTimer():  
  10.     return time.time()  
  11.   
  12. def ticT(startTime):  
  13.     useTime = time.time() - startTime  
  14.     return round(useTime, 3)  
  15.   
  16. #def tic(startTime, name):  
  17. #    useTime = time.time() - startTime  
  18. #    print('[%s] use time: %1.3f' % (name, useTime))  
  19.   
  20. def download_urllib(url):  
  21.     req = urllib.request.Request(url,  
  22.             headers={'user-agent': 'Mozilla/5.0'})  
  23.     res = urllib.request.urlopen(req)  
  24.     data = res.read()  
  25.     try:  
  26.         data = data.decode('gbk')  
  27.     except UnicodeDecodeError:  
  28.         data = data.decode('utf8', 'ignore')  
  29.     return res.status, data  
  30.   
  31. def download_requests(url):  
  32.     req = requests.get(url,  
  33.             headers={'user-agent': 'Mozilla/5.0'})  
  34.     return req.status_code, req.text  
  35.   
  36. urls = ['http://www.ustchacker.com'] * 10  
  37. urllibL = []  
  38. requestsL = []  
  39. reqPool = []  
  40. reqSpawn = []  
  41. N = 20  
  42. PoolNum = 100  
  43.   
  44. for i in range(N):  
  45.     print('start %d try' % i)  
  46.     urllibT = startTimer()  
  47.     jobs = [download_urllib(url) for url in urls]  
  48.     #for status, data in jobs:  
  49.     #    print(status, data[:10])  
  50.     #tic(urllibT, 'urllib.request')  
  51.     urllibL.append(ticT(urllibT))  
  52.     print('1')  
  53.       
  54.     requestsT = startTimer()  
  55.     jobs = [download_requests(url) for url in urls]  
  56.     #for status, data in jobs:  
  57.     #    print(status, data[:10])  
  58.     #tic(requestsT, 'requests')  
  59.     requestsL.append(ticT(requestsT))  
  60.     print('2')  
  61.       
  62.     requestsT = startTimer()  
  63.     pool = gevent.pool.Pool(PoolNum)  
  64.     data = pool.map(download_requests, urls)  
  65.     #for status, text in data:  
  66.     #    print(status, text[:10])  
  67.     #tic(requestsT, 'requests with gevent.pool')  
  68.     reqPool.append(ticT(requestsT))  
  69.     print('3')  
  70.       
  71.     requestsT = startTimer()  
  72.     jobs = [gevent.spawn(download_requests, url) for url in urls]  
  73.     gevent.joinall(jobs)  
  74.     #for i in jobs:  
  75.     #    print(i.value[0], i.value[1][:10])  
  76.     #tic(requestsT, 'requests with gevent.spawn')  
  77.     reqSpawn.append(ticT(requestsT))  
  78.     print('4')  
  79.       
  80. import matplotlib.pyplot as plt  
  81. x = list(range(1, N+1))  
  82. plt.plot(x, urllibL, label='urllib')  
  83. plt.plot(x, requestsL, label='requests')  
  84. plt.plot(x, reqPool, label='requests geventPool')  
  85. plt.plot(x, reqSpawn, label='requests Spawn')  
  86. plt.xlabel('test number')  
  87. plt.ylabel('time(s)')  
  88. plt.legend()  
  89. plt.show()  

運行結果以下:

 

        從上圖能夠看到,對於I/O密集型任務,gevent仍是能對性能作很大提高的,因爲協程的建立、調度開銷都比線程小的多,因此能夠看到不論使用gevent的Spawn模式仍是Pool模式,性能差距不大。socket

        由於在gevent中須要使用monkey補丁,會提升gevent的性能,但會影響multiprocessing的運行,若是要同時使用,須要以下代碼:post

 

[python]  view plain  copy
 
  1. gevent.monkey.patch_all(thread=False, socket=False, select=False)  

 

        但是這樣就不能充分發揮gevent的優點,因此不能把multiprocessing Pool、threading Pool、gevent Pool在一個程序中對比。不過比較兩圖能夠得出結論,線程池和gevent的性能最優的,其次是進程池。附帶得出個結論,requests庫比urllib.request庫性能要好一些哈:-)        性能

 

轉載請註明:轉自http://blog.csdn.net/littlethunder/article/details/40983031測試

相關文章
相關標籤/搜索