Python生成器(generator)並非一個晦澀難懂的概念。相比於MetaClass和Closure等概念,其較爲容易理解和掌握。但相對於程序結構:順序、循環和分支而言其又不是特別的直觀。不管學習任何的東西,概念都是很是重要的。正確樹立並掌握一些基礎的概念是靈活和合理運用的前提,本文將以一種通俗易懂的方式介紹一下generator和yield表達式。python
首先明白兩點:緩存
比較常見的數據類型list、tuple、dict等都是可迭代的,屬於collections.Iterable類型;app
迭代器不只可迭代還能夠被內置函數next調用,屬於collections.Iterator類型;ide
迭代器是特殊的可迭代對象,是可迭代對象的一個子集。函數
將要介紹的gererator(生成器)是types.GeneratorType類型,也是collections.Iterator類型。學習
也就是說生成器是迭代器,可被next調用,也可迭代。測試
三者的包含關係:(可迭代(迭代器(生成器)))ui
python有兩種類型的生成器:生成器表達式和生成器函數。spa
因爲生成器可迭代而且是iterator,所以能夠經過for和next進行遍歷。code
把列表生成式的[]改爲()便獲得生成器表達式。
>>> gen = (i + i for i in xrange(10)) >>> gen <generator object <genexpr> at 0x0000000003A2DAB0> >>> type(gen) <type 'generator'> >>> isinstance(gen, types.GeneratorType) and isinstance(gen, collections.Iterator) and isinstance(gen, collections.Iterable) True >>>
python函數定義中有關鍵字yield,該函數即是一個生成器函數,函數調用返回的是一個generator.
def yield_func(): for i in xrange(3): yield i gen_func = yield_func() for yield_val in gen_func: print yield_val
生成器函數每次執行到yield便會返回,但與普通函數不一樣的是yield返回時會保留當前函數的執行狀態,再次被調用時能夠從中斷的地方繼續執行。
經過for和next能夠遍歷生成器,而send則能夠用於向生成器函數發送消息。
1 def yield_func(): 2 for i in xrange(1, 3): 3 x = yield i 4 print 'yield_func',x 5 gen_func = yield_func() 6 print 'iter result: %d' % next(gen_func) 7 print 'iter result: %d' % gen_func.send(100)
結果:
iter result: 1 yield_func 100 iter result: 2
簡單分析一下執行過程:
若是在上面代碼後面再加一行:
print 'iter result: %d' % next(gen_func)
結果:
iter result: 1 yield_func 100 iter result: 2 yield_func None File "G:\Cnblogs\Alpha Panda\Main.py", line 22, in <module> print 'iter result: %d' % next(gen_func) StopIteration
yield_func只會產生2個yield,可是咱們迭代調用了3次,會拋出異常StopIteration。
next和send均會觸發生成器函數的執行,使用for遍歷生成器函數時不要用send。緣由後面解釋。
使用了yield的函數嚴格來說已經不是一個函數,而是一個生成器。所以函數中yield和return是不能同時出現的。
SyntaxError: 'return' with argument inside generator
生成器只能經過yield將每次調用的結果返回給調用者。
list、tuple、dict等可迭代但不是迭代器的對象可經過內置函數iter轉化爲iterator,即可以經過next進行遍歷;
這樣的好處是能夠統一使用next遍歷全部的可迭代對象;
tup = (1,2,3) for ele in tup: print ele + ele
上面的代碼等價於:
tup_iterator = iter(tup)
while True: try: ele = next(tup_iterator) except StopIteration: break print ele + ele
for循環使用next遍歷一個迭代器,混合使用send可能會致使混亂的遍歷流程。
其實到這裏生成器相關的概念基本已經介紹完成了,本身動手過一遍應該能弄明白了。爲了更加深入的體會生成器,下面咱們在往前走一步。
在Python 2中這兩個比較經常使用,看一下二者的區別:
這裏xrange有點相似於上面介紹的生成器表達式,雖然xrange返回的並非生成器,但二者均返回並不包含所有結果可迭代對象。
做爲一個iterator:
The iterator objects themselves are required to support the following two methods, which together form the iterator protocol:
iterator.
__iter__
()Return the iterator object itself. This is required to allow both containers and iterators to be used with the
for
andin
statements. This method corresponds to thetp_iter
slot of the type structure for Python objects in the Python/C API.
iterator.
next
()Return the next item from the container. If there are no further items, raise the
StopIteration
exception. This method corresponds to thetp_iternext
slot of the type structure for Python objects in the Python/C API.
下面咱們自定義class my_xrange:
1 class my_xrange(object): 2 def __init__(self, start, stop = None, step = 1): 3 """ 僅僅爲了演示,假設start, stop 和 step 均爲正整數 """ 4 self._start = 0 if stop is None else start 5 self._stop = start if stop is None else stop 6 self._step = step 7 self._cur_val = self._start 8 9 def __iter__(self): 10 return self 11 12 def next(self): 13 if self._start <= self._cur_val < self._stop: 14 cur_val = self._cur_val 15 self._cur_val += self._step 16 return cur_val 17 raise StopIteration
測試結果:
import collections myxrange = my_xrange(0, 10, 3) res = [] for val in myxrange: res.append(val) print res == range(0, 10, 3) # True print isinstance(myxrange, collections.Iterator) # True
print isinstance(myxrange, types.GeneratorType) # False
下面使用函數生成器定義一個generator版的xrange。
def xrange_func(start, stop, step = 1): """ 僅僅爲了演示,假設start, stop 和 step 均爲正整數 """ cur_val = start while start <= cur_val and cur_val < stop: yield cur_val cur_val += step
isinstance(myxrange, collections.Iterator) and isinstance(myxrange, types.GeneratorType) is True
上面兩個自定義xrange版本的例子,均說明生成器以及迭代器保留數列生成過程的狀態,每次只計算一個值並返回。這樣只要佔用不多的內存便可表示一個很大的序列。
不論是迭代器仍是生成器,對於有大量有規律的數據產生並須要遍歷訪問的情景均適用,佔用內存少並且遍歷的速度快。其中一個較爲經典的應用爲斐波那契數列(Fibonacci sequence)。
這裏以os.walk遍歷目錄爲例來講明yield的應用。若是咱們須要遍歷一個根目錄下的全部文件並根據須要進行增刪改查。可能會遇到下列的問題:
預先遍歷且緩存結果,可是目錄下文件可能不少,並且會動態改變;若是不緩存,多個地方可能會頻繁的須要訪問這一結果致使效率低下。
這時候可使用yield定義一個生成器函數。
def get_all_dir_files(target_dir): for root, dirs, files in os.walk(target_dir): for file in files: file_path = os.path.join(root, file) yield os.path.realpath(file_path) def file_factory(file): """ do something """ target_dir = './' all_files = get_all_dir_files(target_dir) for file in all_files: file_factory(file)
限於篇幅,就先介紹到這裏,但願本文能讓你對生成器有一個新的認識。