譯者前言:相信凡是用過 zip() 內置函數的人,都會贊同它頗有用,可是,它的最大問題是可能會產生出非預期的結果。PEP-618 提出給它增長一個參數,能夠有效地解決你們的痛點。html
這是 Python 3.10 版本正式採納的第一個 PEP,「Python貓」一直有跟進社區最新動態的習慣,因此翻譯了出來給你們嚐鮮,強烈推薦一讀。(PS:嚴格來講,zip() 是一個內置類(built-in type),而不是一個內置函數(built-in function),但咱們通常都稱它爲一個內置函數。)python
PEP原文 : www.python.org/dev/peps/pe…git
PEP標題: Add Optional Length-Checking To zipgithub
PEP做者: Brandt Bucherapp
建立日期: 2020-05-01ide
合入版本: 3.10函數
譯者 :豌豆花下貓 @Python貓公衆號工具
PEP翻譯計劃 :github.com/chinesehuaz…性能
本 PEP 建議給內置的 zip
添加一個可選的 strict 布爾關鍵字參數。當啓用時,若是其中一個參數先被用盡了,則會引起 ValueError 。學習
從做者的我的經驗和一份對標準庫的調查 來看,明顯有不少(若是不是絕大多數)zip 用例要求可迭代對象必須是等長的。有時候,周圍代碼的上下文能夠保證這點,可是要 zip 處理的數據一般是由調用者傳入的、單獨提供的或者以某種方式生成的。在這些狀況下,zip 的默認行爲意味着錯誤的重構或邏輯錯誤,很容易悄悄地致使數據丟失。這些 bug 不只難以定位,甚至難以被覺察到。
很容易想到形成這種問題的簡單案例。例如,如下代碼在 items 爲一個序列(sequence)時能夠良好地運行,可是若是調用者將 item 重構爲一個可消耗的迭代器,則代碼會悄悄地產生縮短的、不匹配的結果:
def apply_calculations(items):
transformed = transform(items)
for i, t in zip(items, transformed):
yield calculate(i, t)
複製代碼
zip 還有幾種常見用法。慣用的技巧性用法特別容易出問題,由於它們常常被不徹底瞭解代碼工做方式的用戶使用。下面是一個示例,解包到 zip 中以轉化成嵌套的可迭代對象:
>>> x = [[1, 2, 3], ["one" "two" "three"]]
>>> xt = list(zip(*x))
複製代碼
另外一個例子是將數據「分塊」成大小相等的組:
>>> n = 3
>>> x = range(n ** 2),
>>> xn = list(zip(*[iter(x)] * n))
複製代碼
在第一個例子中,非矩形數據一般會致使邏輯錯誤。在第二個例子中,長度不是 n 的倍數的數據一般也是錯誤。由於這兩個習慣用法都會悄悄地忽略不匹配的尾部元素。
最有說服力的例子來自使用了 zip 的標準庫ast
,它在 literal_eval 裏產生過一個 bug,會直接丟棄不匹配的節點:
>>> from ast import Constant, Dict, literal_eval
>>> nasty_dict = Dict(keys=[Constant(None)], values=[])
>>> literal_eval(nasty_dict) # Like eval("{None: }")
{}
複製代碼
實際上,筆者已經在 Python 的標準庫和工具中找出了許多調用點, 當即在這些位置啓用此新特性是恰當的。
一些評論者聲稱:布爾開關常量是一種「代碼壞氣味(code-smell)」,或者與 Python 的設計哲學背道而馳。
可是,Python 當前在內置函數上有幾個布爾關鍵字參數的用法,它們一般使用編譯期常量來調用:
compile(..., dont_inherit=True)
open(..., closefd=False)
print(..., flush=True)
sorted(..., reverse=True)
標準庫中還有許多相似用法。
這個新參數的想法和名稱最初是由 Ram Rachum 提出的。該議題收到了 100 多個回覆,而候選的「equal」也得到了相近的支持數。
筆者對它們沒有很強烈的偏好,儘管「equal equals」 讀起來有點尷尬。它還可能(錯誤地)暗示了 zip 的對象是相等的:
>>> z = zip([2.0, 4.0, 6.0], [2, 4, 8], equal=True)
複製代碼
當用關鍵字參數 strict=True 調用內置類 zip 時,若是參數的長度不一樣,則生成的迭代器會引起 ValueError。這個異常就發生在迭代器正常中止迭代的地方。
此項更改是徹底向上兼容的。當前的 zip 不接受關鍵字參數,默認省略 strict 的「非嚴格」用法會保持不變。
筆者設計了一個 C 實現。
用 Python 大體翻譯以下:
def zip(*iterables, strict=False):
if not iterables:
return
iterators = tuple(iter(iterable) for iterable in iterables)
try:
while True:
items = []
for iterator in iterators:
items.append(next(iterator))
yield tuple(items)
except StopIteration:
if not strict:
return
if items:
i = len(items)
plural = " " if i == 1 else "s 1-"
msg = f"zip() argument {i+1} is shorter than argument{plural}{i}"
raise ValueError(msg)
sentinel = object()
for i, iterator in enumerate(iterators[1:], 1):
if next(iterator, sentinel) is not sentinel:
plural = " " if i == 1 else "s 1-"
msg = f"zip() argument {i+1} is longer than argument{plural}{i}"
raise ValueError(msg)
複製代碼
這是 Python-Ideas 郵件列表上得到最多支持的替代方案,所以值得在此處加以討論。它沒有任何嚴重的缺陷,若是本 PEP 被否絕,它是一個很好的替代。
雖然考慮到這一點,可是在 zip 中添加可選參數能夠用較小的更改而更好地解決誘發此 PEP 的問題。
itertools 中有一個 zip_longest,這彷佛讓人頗有動機再添加一個 zip_strict。可是,zip_longest 在許多方面是一個更加複雜且特定的程序:它負責填寫缺失的值,但其它函數都不須要操心這種事。
若是 zip 和 zip_longest 同時放在 itertools 中,或者都做爲內置函數,那麼在相同的地方添加 zip_strict 就確實是一個更有效的論點。然而,新的「strict」用法在接口和行爲方面,相比起 zip_longest,更接近於 zip 的概念,但又不足以成爲內置對象。考慮到這個緣由,令 zip 就地擴展出一個新的選項,彷佛是最天然的選擇。
若是 zip 可以防止此類 bug,那麼用戶在調用的地方啓動檢查,就會變得很是簡單。與其編寫一套繁重的邏輯來處理,不如用這個新特性來直接檢查。
有人還認爲,在標準庫中放一個新的函數,相比在一個內置函數上加關鍵字參數,更「容易發現(discoverable)」。筆者不一樣意這一論斷。
儘管在提高易用性時,具體的實現是個次要問題,但重要的是要認識到,添加新的程序比修改原有程序複雜得多。與此 PEP 一塊兒提供的 CPython 實現很是簡單,而且對 zip 的默認行爲沒有顯著的性能影響,而在 itertools 中添加一個全新的程序將須要:
若是預期有三個或更多模式(mode),這個建議纔會比二元標誌更有意義。最顯而易見的三種模式是:「最短的」(當前 zip 的行爲),「嚴格的」(本 PEP 提議的行爲)和「最長的」(itertools.zip_longest 的行爲)。
可是,除了當前的默認值以及本提案的「strict」模式,彷佛不須要再添加其它模式。最可能的是添加一個「最長的」模式,但這須要一個新的 fillvalue 參數(它對於前兩種模式都沒有意義),另外,itertools.zip_longest 已經完美地處理了這種模式,若在 zip 中添加該模式,將會形成重複。目前尚不清楚哪個是「顯而易見的」選擇:內置 zip 上的 mode 參數,仍是已經長期存在於 itertools 中的 zip_longest。
考慮如下兩個被提出來的作法:
>>> zm = zip(*iters).strict()
>>> zd = zip.strict(*iters)
複製代碼
尚不清楚哪一個更好,或者哪一個更差。若是 zip.strict 做爲一個方法來實現,則 zm 沒問題,可是 zd 會出現幾種使人困惑的狀況:
若是 zip.strict 是做爲 classmethod 或 staticmethod 實現,則 zd 將成功執行,而 zm 將不產生任何結果(這正是咱們最初要避免的問題)。
本提案還面臨着更爲複雜的問題,由於 CPython 中 zip 內置類的實現細節是未文檔化的。這意味着若選擇以上的某種行爲,當前的實現就會被「鎖定」(或至少要求對其進行仿真)。
zip 的默認行爲沒有什麼「錯」 ,由於在許多狀況下,這確實是正確處理大小不等的輸入的方法。例如,在處理無限迭代器時,它很是有用。
itertools.zip_longest 已經用在仍然須要「額外」尾端數據的狀況。
儘管基本上能夠執行用戶須要的任何操做,但此解決方案在處理常見問題時(例如捨棄不匹配的長度),變得沒必要要的複雜且不直觀。
沒有內置函數或內置類的 API 會引起 AssertionError。此外,官方文檔 這麼寫的(它的所有):
Raised when an
assert
statement fails.
因爲此功能與 Python 的 assert 語句無關,所以不該該引起 AssertionError。用戶若但願在優化模式下禁用檢查(像一個 assert 語句),能夠改用 strict = __debug__。
本 PEP 不建議對 map 做任何更改,由於不多使用帶有多個可迭代參數的map。可是,本 PEP 的裁定可做爲未來討論相似特性的先例(應該出現)。
若是本 PEP 被拒絕,則 map 的那種特性實際上也不值得追求。若是經過了,則對 map 的更改不須要新的 PEP(儘管像全部提案同樣,都應仔細考慮其有用性)。爲了保持一致性,它應遵循此處討論的跟 zip 相同的 API 和語義。
此建議可能最沒有吸引力。
悄悄地將數據截斷是一種特別使人討厭的 bug,而手寫一個健壯的解決方案卻並不是易事。Python 本身的標準庫(前文提到的 ast)是有現實意義的反例,很容易就陷入本 PEP 試圖避免的那種陷阱。
推薦閱讀:
一、PEP中文翻譯計劃 (github.com/chinesehuaz…)
二、學習 Python,怎能不懂點PEP呢? (mp.weixin.qq.com/s/oRoBxZ2-I…)