Python多進程併發操做進程池Pool

時間 2019-11-16

標籤 python 進程併發 pool 欄目 Python 简体版

原文原文鏈接

目錄：html

multiprocessing模塊
Pool類
apply
apply_async
map
close
terminate
join
進程實例

multiprocessing模塊python

若是你打算編寫多進程的服務程序，Unix/Linux無疑是正確的選擇。因爲Windows沒有fork調用，難道在Windows上沒法用Python編寫多進程的程序？因爲Python是跨平臺的，天然也應該提供一個跨平臺的多進程支持。multiprocessing模塊就是跨平臺版本的多進程模塊。multiprocessing模塊提供了一個Process類來表明一個進程對象，這個模塊表示像線程同樣管理進程，這個是multiprocessing的核心，它與threading很類似，對多核CPU的利用率會比threading好的多。linux

看一下Process類的構造方法：併發

__init__(self, group=None, target=None, name=None, args=(), kwargs={})

參數說明：
group：進程所屬組。基本不用
target：表示調用對象。
args：表示調用對象的位置參數元組。
name：別名
kwargs：表示調用對象的字典。app

下面看一個簡單的例子async

 1 #coding=utf-8
 2 import multiprocessing
 3 
 4 def do(n) :
 5   #獲取當前線程的名字
 6   name = multiprocessing.current_process().name
 7   print(name,'starting')
 8   print("worker ", n)
 9   return 
10 
11 if __name__ == '__main__' :
12   numList = []
13   for i in xrange(5) :
14     p = multiprocessing.Process(target=do, args=(i,))
15     numList.append(p)
16     p.start()
17     p.join()
18     print("Process end.")

運行結果函數

Process-1 starting
worker  0
Process end.
Process-2 starting
worker  1
Process end.
Process-3 starting
worker  2
Process end.
Process-4 starting
worker  3
Process end.
Process-5 starting
worker  4
Process end.

建立子進程時，只須要傳入一個執行函數和函數的參數，建立一個Process實例，並用其start()方法啓動，這樣建立進程比fork()還要簡單。 join()方法表示等待子進程結束之後再繼續往下運行，一般用於進程間的同步。ui

注意：
在Windows上要想使用進程模塊，就必須把有關進程的代碼寫在當前.py文件的if __name__ == ‘__main__’ :語句的下面，才能正常使用Windows下的進程模塊。Unix/Linux下則不須要。spa

Pool類.net

Pool類能夠提供指定數量的進程供用戶調用，當有新的請求提交到Pool中時，若是池尚未滿，就會建立一個新的進程來執行請求。若是池滿，請求就會告知先等待，直到池中有進程結束，纔會建立新的進程來執行這些請求。
下面介紹一下multiprocessing 模塊下的Pool類下的幾個方法：

1.apply()

函數原型：apply(func[, args=()[, kwds={}]])

該函數用於傳遞不定參數，同python中的apply函數一致，主進程會被阻塞直到函數執行結束（不建議使用，而且3.x之後不在出現）。

2.apply_async

函數原型：apply_async(func[, args=()[, kwds={}[, callback=None]]])

與apply用法一致，但它是非阻塞的且支持結果返回後進行回調。

3.map()

函數原型：map(func, iterable[, chunksize=None])

Pool類中的map方法，與內置的map函數用法行爲基本一致，它會使進程阻塞直到結果返回。
注意：雖然第二個參數是一個迭代器，但在實際使用中，必須在整個隊列都就緒後，程序纔會運行子進程。

4.map_async()

函數原型：map_async(func, iterable[, chunksize[, callback]])
與map用法一致，可是它是非阻塞的。其有關事項見apply_async。

5.close()

關閉進程池（pool），使其不在接受新的任務。

6.terminal()

結束工做進程，不在處理未處理的任務。

7.join()

主進程阻塞等待子進程的退出， join方法要在close或terminate以後使用。

下面咱們看一個簡單的multiprocessing.Pool類的實例：

 1 # -*- coding: utf-8 -*-
 2 import time
 3 from multiprocessing import Pool
 4 def run(fn):
 5   #fn: 函數參數是數據列表的一個元素
 6   time.sleep(1)
 7   print(fn*fn)
 8 
 9 if __name__ == "__main__":
10   testFL = [1,2,3,4,5,6]
11   print ('shunxu:') #順序執行(也就是串行執行，單進程)
12   s = time.time()
13   for fn in testFL:
14     run(fn)
15   t1 = time.time()
16   print ("順序執行時間：", int(t1 - s))
17 
18   print ('concurrent:') #建立多個進程，並行執行
19   pool = Pool(10)  #建立擁有10個進程數量的進程池
20   #testFL:要處理的數據列表，run：處理testFL列表中數據的函數
21   pool.map(run, testFL)
22   pool.close()#關閉進程池，再也不接受新的進程
23   pool.join()#主進程阻塞等待子進程的退出
24   t2 = time.time()
25   print ("並行執行時間：", int(t2-t1))

輸出結果爲：

shunxu:
1
4
9
16
25
36
順序執行時間： 6
concurrent:
1
4
9
16
25
36
並行執行時間： 1

上例是一個建立多個進程併發處理與順序執行處理同一數據，所用時間的差異。從結果能夠看出，併發執行的時間明顯比順序執行要快不少，可是進程是要耗資源的，因此平時工做中，進程數也不能開太大。對Pool對象調用join()方法會等待全部子進程執行完畢，調用join()以前必須先調用close()，讓其再也不接受新的Process了。

更多有關進程介紹請參考官方文檔：https://docs.python.org/2/library/multiprocessing.html

本文參考：http://blog.csdn.net/seetheworld518/article/details/49639651#t0

下次咱們運用多進程爬取趕集網數據。