python multiprocess 使用 yield

python在處理數據的時候,memory-heavy 的數據每每會致使程序沒辦反運行或者運行期間服務器其餘程序效率受到影響。這種狀況每每會把數據集合變爲經過genertor來遍歷。python

但同時如咱們所知,generoter看似只能被單進程消費,這樣效率很低。服務器

generator 能夠被pool.map消費。

看一下pool.py的源碼。app

for i, task in enumerate(taskseq):
     ...
     try:
         put(task)
     except IOError:
         debug('could not put task on queue')
         break

實際是先將generator所有消費掉放到queue中。而後經過map來並行。這樣是解決了使用map來並行。線程

可是依然沒有解決佔用內存的問題。這裏有兩步佔用內存。debug

  • 第一步是所有消費掉的generator。
  • 第二步並行運算所有data。

解決第一個問題,經過部分消費generator來達到。
解決第二個問題,能夠經過imap來達到.code

示例代碼以下:進程

import multiprocessing as mp
import itertools
import time


def g():
    for el in xrange(50):
        print el
        yield el

import os

def f(x):
    time.sleep(1)
    print str(os.getpid()) +" "+  str(x)
    return x * x

if __name__ == '__main__':
    pool = mp.Pool(processes=4)              # start 4 worker processes
    go = g()
    result = []
    N = 11
    while True:
        g2 = pool.imap(f, itertools.islice(go, N))
        if g2:
            for i in g2:
                result.append(i)
                time.sleep(1)
        else:
            break
    print(result)

ps: 使用注意事項。在produce數據的時候,儘可能少作操做,應爲即便是map也是單線程的來消費數據。因此儘可能把操做放到map中做。這樣才能更好的利用多進程提升效率。ip

相關文章
相關標籤/搜索