Python—迭代器和生成器

時間 2020-02-16

標籤 python 迭代成器欄目 Python 简体版

原文原文鏈接

楔子

假如我如今有一個列表l=['a','b','c','d','e']，我想取列表中的內容，有幾種方式？html

首先，我能夠經過索引取值l[0],其次咱們是否是還能夠用for循環來取值呀？python

你有沒有仔細思考過，用索引取值和for循環取值是有着微妙區別的。面試

若是用索引取值，你能夠取到任意位置的值，前提是你要知道這個值在什麼位置。編程

若是用for循環來取值，咱們把每個值都取到，不須要關心每個值的位置，由於只能順序的取值，並不能跳過任何一個直接去取其餘位置的值。app

但你有沒有想過，咱們爲何可使用for循環來取值？ssh

for循環內部是怎麼工做的呢？ide

迭代器

python中的for循環

要了解python中的for循環是怎麼回事兒，我們仍是要從代碼的角度出發。函數

首先，咱們對一個列表進行for循環。測試

for i in [1,2,3,4]: print(i)

上面這段代碼確定是沒有問題的，可是咱們換一種狀況，來循環一個數字1234試試大數據

for i in 1234 print(i) 結果： Traceback (most recent call last): File "test.py", line 4, in <module> for i in 1234: TypeError: 'int' object is not iterable

看，報錯了！報了什麼錯呢？「TypeError: 'int' object is not iterable」，說int類型不是一個iterable，那這個iterable是個啥？

假如你不知道什麼是iterable，咱們能夠翻翻詞典，首先獲得一箇中文的解釋，儘管翻譯過來了你可能也不知道，可是不要緊，我會帶着你一步一步來分析。

迭代和可迭代協議

什麼叫迭代

如今，咱們已經得到了一個新線索，有一個叫作「可迭代的」概念。

首先，咱們從報錯來分析，好像之因此1234不能夠for循環，是由於它不可迭代。那麼若是「可迭代」，就應該能夠被for循環了。

這個咱們知道呀，字符串、列表、元組、字典、集合均可以被for循環，說明他們都是可迭代的。

咱們怎麼來證實這一點呢？

from collections import Iterable l = [1,2,3,4] t = (1,2,3,4) d = {1:2,3:4} s = {1,2,3,4} print(isinstance(l,Iterable)) print(isinstance(t,Iterable)) print(isinstance(d,Iterable)) print(isinstance(s,Iterable))

結合咱們使用for循環取值的現象，再從字面上理解一下，其實迭代就是咱們剛剛說的，能夠將某個數據集內的數據「一個挨着一個的取出來」，就叫作迭代。

可迭代協議

咱們如今是從結果分析緣由，能被for循環的就是「可迭代的」，可是若是正着想，for怎麼知道誰是可迭代的呢？

假如咱們本身寫了一個數據類型，但願這個數據類型裏的東西也可使用for被一個一個的取出來，那咱們就必須知足for的要求。這個要求就叫作「協議」。

能夠被迭代要知足的要求就叫作可迭代協議。可迭代協議的定義很是簡單，就是內部實現了__iter__方法。

接下來咱們就來驗證一下：

print(dir([1,2])) print(dir((2,3))) print(dir({1:2})) print(dir({1,2}))

['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']
['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'count', 'index']
['__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'clear', 'copy', 'fromkeys', 'get', 'items', 'keys', 'pop', 'popitem', 'setdefault', 'update', 'values']
['__and__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__iand__', '__init__', '__ior__', '__isub__', '__iter__', '__ixor__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__or__', '__rand__', '__reduce__', '__reduce_ex__', '__repr__', '__ror__', '__rsub__', '__rxor__', '__setattr__', '__sizeof__', '__str__', '__sub__', '__subclasshook__', '__xor__', 'add', 'clear', 'copy', 'difference', 'difference_update', 'discard', 'intersection', 'intersection_update', 'isdisjoint', 'issubset', 'issuperset', 'pop', 'remove', 'symmetric_difference', 'symmetric_difference_update', 'union', 'update']

結果

總結一下咱們如今所知道的：能夠被for循環的都是可迭代的，要想可迭代，內部必須有一個__iter__方法。

接着分析，__iter__方法作了什麼事情呢？

print([1,2].__iter__()) 結果 <list_iterator object at 0x1024784a8>

執行了list([1,2])的__iter__方法，咱們好像獲得了一個list_iterator，如今咱們又獲得了一個新名詞——iterator。

iterator，這裏給咱們標出來了，是一個計算機中的專屬名詞，叫作迭代器。

迭代器協議

既什麼叫「可迭代」以後，又一個歷史新難題，什麼叫「迭代器」？

雖然咱們不知道什麼叫迭代器，可是咱們如今已經有一個迭代器了，這個迭代器是一個列表的迭代器。

咱們來看看這個列表的迭代器比起列表來講實現了哪些新方法，這樣就能揭開迭代器的神祕面紗了吧？

''' dir([1,2].__iter__())是列表迭代器中實現的全部方法，dir([1,2])是列表中實現的全部方法,都是以列表的形式返回給咱們的，爲了看的更清楚，咱們分別把他們轉換成集合，
而後取差集。 ''' #print(dir([1,2].__iter__())) #print(dir([1,2])) print(set(dir([1,2].__iter__()))-set(dir([1,2]))) 結果： {'__length_hint__', '__next__', '__setstate__'}

咱們看到在列表迭代器中多了三個方法，那麼這三個方法都分別作了什麼事呢？

iter_l = [1,2,3,4,5,6].__iter__() #獲取迭代器中元素的長度 print(iter_l.__length_hint__()) #根據索引值指定從哪裏開始迭代 print('*',iter_l.__setstate__(4)) #一個一個的取值 print('**',iter_l.__next__()) print('***',iter_l.__next__())

這三個方法中，能讓咱們一個一個取值的神奇方法是誰？

沒錯！就是__next__

在for循環中，就是在內部調用了__next__方法才能取到一個一個的值。

那接下來咱們就用迭代器的next方法來寫一個不依賴for的遍歷。

l = [1,2,3,4]
l_iter = l.__iter__() item = l_iter.__next__() print(item) item = l_iter.__next__() print(item) item = l_iter.__next__() print(item) item = l_iter.__next__() print(item) item = l_iter.__next__() print(item)

這是一段會報錯的代碼，若是咱們一直取next取到迭代器裏已經沒有元素了，就會拋出一個異常StopIteration，告訴咱們，列表中已經沒有有效的元素了。

這個時候，咱們就要使用異常處理機制來把這個異常處理掉。

l = [1,2,3,4]
l_iter = l.__iter__() while True: try: item = l_iter.__next__() print(item) except StopIteration: break

那如今咱們就使用while循環實現了本來for循環作的事情，咱們是從誰那兒獲取一個一個的值呀？是否是就是l_iter？好了，這個l_iter就是一個迭代器。

迭代器遵循迭代器協議：必須擁有__iter__方法和__next__方法。

還帳：next和iter方法

如此一來，關於迭代器和生成器的方法咱們就還清了兩個，最後咱們來看看range()是個啥。首先，它確定是一個可迭代的對象，可是它是不是一個迭代器？咱們來測試一下

print('__next__' in dir(range(12))) #查看'__next__'是否是在range()方法執行以後內部是否有__next__ print('__iter__' in dir(range(12))) #查看'__next__'是否是在range()方法執行以後內部是否有__next__ from collections import Iterator print(isinstance(range(100000000),Iterator)) #驗證range執行以後獲得的結果不是一個迭代器

# range的返回值是一個可迭代對象

爲何要有for循環

基於上面講的列表這一大堆遍歷方式，聰明的你立馬看除了端倪，因而你不知死活大聲喊道，你這不逗我玩呢麼，有了下標的訪問方式，我能夠這樣遍歷一個列表啊

l=[1,2,3]

index=0 while index < len(l): print(l[index]) index+=1 #要毛線for循環，要毛線可迭代，要毛線迭代器

沒錯，序列類型字符串，列表，元組都有下標，你用上述的方式訪問，perfect！可是你可曾想過非序列類型像字典，集合，文件對象的感覺，因此嘛，年輕人，for循環就是基於迭代器協議提供了一個統一的能夠遍歷全部對象的方法，即在遍歷以前，先調用對象的__iter__方法將其轉換成一個迭代器，而後使用迭代器協議去實現循環訪問，這樣全部的對象就均可以經過for循環來遍歷了，並且你看到的效果也確實如此，這就是無所不能的for循環，覺悟吧，年輕人

生成器

初識生成器

咱們知道的迭代器有兩種：一種是調用方法直接返回的，一種是可迭代對象經過執行iter方法獲得的，迭代器有的好處是能夠節省內存。

若是在某些狀況下，咱們也須要節省內存,就只能本身寫。咱們本身寫的這個能實現迭代器功能的東西就叫生成器。

Python中提供的生成器：

1.生成器函數：常規函數定義，可是，使用yield語句而不是return語句返回結果。yield語句一次返回一個結果，在每一個結果中間，掛起函數的狀態，以便下次重它離開的地方繼續執行

2.生成器表達式：相似於列表推導，可是，生成器返回按需產生結果的一個對象，而不是一次構建一個結果列表

生成器Generator：

　　本質：迭代器(因此自帶了__iter__方法和__next__方法，不須要咱們去實現)

　　特色：惰性運算,開發者自定義

生成器函數

一個包含yield關鍵字的函數就是一個生成器函數。yield能夠爲咱們從函數中返回值，可是yield又不一樣於return，return的執行意味着程序的結束，調用生成器函數不會獲得返回的具體的值，而是獲得一個可迭代的對象。每一次獲取這個可迭代對象的值，就能推進函數的執行，獲取新的返回值。直到函數執行結束。

# 初識生成器一
import time def genrator_fun1(): a = 1 print('如今定義了a變量') yield a b = 2 print('如今又定義了b變量') yield b g1 = genrator_fun1() print('g1 : ',g1) #打印g1能夠發現g1就是一個生成器 print('-'*20) #我是華麗的分割線 print(next(g1)) time.sleep(1) #sleep一秒看清執行過程 print(next(g1))

生成器有什麼好處呢？就是不會一會兒在內存中生成太多數據

假如我想讓工廠給學生作校服，生產2000000件衣服，我和工廠一說，工廠應該是先答應下來，而後再去生產，我能夠一件一件的要，也能夠根據學生一批一批的找工廠拿。
而不能是一說要生產2000000件衣服，工廠就先去作生產2000000件衣服，等回來作好了，學生都畢業了。。。

#初識生成器二 def produce(): """生產衣服""" for i in range(2000000): yield "生產了第%s件衣服"%i product_g = produce() print(product_g.__next__()) #要一件衣服 print(product_g.__next__()) #再要一件衣服 print(product_g.__next__()) #再要一件衣服 num = 0 for i in product_g: #要一批衣服，好比5件 print(i) num +=1 if num == 5: break #到這裏咱們找工廠拿了8件衣服，我一共讓個人生產函數(也就是produce生成器函數)生產2000000件衣服。 #剩下的還有不少衣服，咱們能夠一直拿，也能夠放着等想拿的時候再拿

send

def generator(): print(123) content = yield 1 print('=======',content) print(456) yield2 g = generator() ret = g.__next__() print('***',ret) ret = g.send('hello') #send的效果和next同樣 print('***',ret) #send 獲取下一個值的效果和next基本一致 #只是在獲取下一個值的時候，給上一yield的位置傳遞一個數據 #使用send的注意事項 # 第一次使用生成器的時候 是用next獲取下一個值 # 最後一個yield不能接受外部的值

def averager():
    total = 0.0
    count = 0
    average = None
    while True:
        term = yield average
        total += term
        count += 1
        average = total/count


g_avg = averager()
next(g_avg)
print(g_avg.send(10))
print(g_avg.send(30))
print(g_avg.send(5))

計算移動平均值(1)

計算移動平均值(2)_預激協程的裝飾器

yield from

def gen1(): for c in 'AB': yield c for i in range(3): yield i print(list(gen1())) def gen2(): yield from 'AB' yield from range(3) print(list(gen2()))

列表推導式和生成器表達式

#老男孩因爲峯哥的強勢加盟很快走上了上市之路,alex思來想去決定下幾個雞蛋來報答峯哥  egg_list=['雞蛋%s' %i for i in range(10)] #列表解析 #峯哥瞅着alex下的一筐雞蛋,捂住了鼻子,說了句:哥,你仍是給我只母雞吧,我本身回家下  laomuji=('雞蛋%s' %i for i in range(10))#生成器表達式 print(laomuji) print(next(laomuji)) #next本質就是調用__next__ print(laomuji.__next__()) print(next(laomuji))

總結：

1.把列表解析的[]換成()獲得的就是生成器表達式

2.列表解析與生成器表達式都是一種便利的編程方式，只不過生成器表達式更節省內存

3.Python不但使用迭代器協議，讓for循環變得更加通用。大部份內置函數，也是使用迭代器協議訪問對象的。例如， sum函數是Python的內置函數，該函數使用迭代器協議訪問對象，而生成器實現了迭代器協議，因此，咱們能夠直接這樣計算一系列值的和：

sum(x ** 2 for x in range(4))

而不用畫蛇添足的先構造一個列表：

sum([x ** 2 for x in range(4)])

更多精彩請見——迭代器生成器專題：http://www.cnblogs.com/Eva-J/articles/7276796.html

本章小結

可迭代對象：

　　擁有__iter__方法

　　特色：惰性運算

　　例如:range(),str,list,tuple,dict,set

迭代器Iterator：

　　擁有__iter__方法和__next__方法

　　例如:iter(range()),iter(str),iter(list),iter(tuple),iter(dict),iter(set),reversed(list_o),map(func,list_o),filter(func,list_o),file_o

生成器Generator：

　　本質：迭代器，因此擁有__iter__方法和__next__方法

　　特色：惰性運算,開發者自定義

使用生成器的優勢：

1.延遲計算，一次返回一個結果。也就是說，它不會一次生成全部的結果，這對於大數據量處理，將會很是有用。

#列表解析 sum([i for i in range(100000000)])#內存佔用大,機器容易卡死 #生成器表達式 sum(i for i in range(100000000))#幾乎不佔內存

2.提升代碼可讀性

生成器相關的面試題

生成器在編程中發生了不少的做用，善用生成器能夠幫助咱們解決不少複雜的問題

除此以外，生成器也是面試題中的重點，在完成一些功能以外，人們也想出了不少魔性的面試題。
接下來咱們就來看一看～

def demo(): for i in range(4): yield i g=demo() g1=(i for i in g) g2=(i for i in g1) print(list(g1)) print(list(g2))

def add(n,i): return n+i def test(): for i in range(4): yield i g=test() for n in [1,10]: g=(add(n,i) for i in g) print(list(g))

import os def init(func): def wrapper(*args,**kwargs): g=func(*args,**kwargs) next(g) return g return wrapper @init def list_files(target): while 1: dir_to_search=yield for top_dir,dir,files in os.walk(dir_to_search): for file in files: target.send(os.path.join(top_dir,file)) @init def opener(target): while 1: file=yield fn=open(file) target.send((file,fn)) @init def cat(target): while 1: file,fn=yield for line in fn: target.send((file,line)) @init def grep(pattern,target): while 1: file,line=yield if pattern in line: target.send(file) @init def printer(): while 1: file=yield if file: print(file) g=list_files(opener(cat(grep('python',printer())))) g.send('/test1') 協程應用：grep -rl /dir