Python 之父的解析器系列之五:左遞歸 PEG 語法

原題 | Left-recursive PEG grammarsnode

做者 | Guido van Rossum(Python之父)python

譯者 | 豌豆花下貓(「Python貓」公衆號做者)git

聲明 | 本翻譯是出於交流學習的目的,基於 CC BY-NC-SA 4.0 受權協議。爲便於閱讀,內容略有改動。程序員

我曾幾回說起左遞歸是一塊絆腳石,是時候去解決它了。基本的問題在於:使用遞歸降低解析器時,左遞歸會因堆棧溢出而致使程序終止。github

【這是個人 PEG 系列的第 5 部分。其它文章參見這個目錄算法

假設有以下的語法規則:數組

expr: expr '+' term | term複製代碼

若是咱們天真地將它翻譯成遞歸降低解析器的片斷,會獲得以下內容:緩存

def expr():
    if expr() and expect('+') and term():
        return True
    if term():
        return True
    return False複製代碼

也就是expr() 以調用expr() 開始,後者也以調用expr() 開始,以此類推……這隻能以堆棧溢出而結束,拋出異常RecursionErrororacle

傳統的補救措施是重寫語法。在以前的文章中,我已經這樣作了。事實上,上面的語法也能識別出來,若是咱們重寫成這樣:app

expr: term '+' expr | term複製代碼

可是,若是咱們用它生成一個解析樹,那麼解析樹的形狀會有所不一樣,這會致使破壞性的後果,好比當咱們在語法中添加一個'-' 運算符時(由於a - (b - c)(a - b) - c 不同)。

這一般可使用更強大的 PEG 特性來解決,例如分組和迭代,咱們能夠將上述規則重寫爲:

expr: term ('+' term)*複製代碼

實際上,這正是 Python 當前語法在 pgen 解析器生成器上的寫法(pgen 與左遞歸規則具備一樣的問題)。

可是這仍然存在一些問題:由於像'+''-' 這樣的運算符,基本上是二進制的(在 Python 中),當咱們解析像a + b + c 這樣的東西時,咱們必須遍歷解析的結果(基本上是列表['a','+','b','+','c'] ),以構造一個左遞歸的解析樹(相似於 [['a','+','b'] ,'+','c'] )。

原始的左遞歸語法已經表訴了所需的關聯性,所以,若是咱們能夠直接以該形式生成解析器,那將會很好。咱們能夠!一位粉絲向我指出了一個很好的技巧,還附帶了一個數學證實,很容易實現。我會試着在這裏解釋一下。

讓咱們考慮輸入foo + bar + baz 做爲示例。咱們想要解析出的解析樹對應於(foo + bar)+ baz 。這須要對expr() 進行三次左遞歸調用:一次對應於頂級的「+」 運算符(即第二個); 一次對應於內部的「+」運算符(即第一個); 還有一次是選擇第二個備選項(即term )。

因爲我不善於使用計算機繪製實際的圖表,所以我將在此使用 ASCII 技巧做演示:

expr------------+------+
  |              \      \
expr--+------+   '+'   term
  |    \      \          |
expr   '+'   term        |
  |            |         |
term           |         |
  |            |         |
'foo'        'bar'     'baz'複製代碼

咱們的想法是但願在 expr() 函數中有一個「oracle」(譯註:預言、神諭,後面就不譯了),它要麼告訴咱們採用第一個備選項(即遞歸調用 expr()),要麼是第二個(即調用 term())。在第一次調用 expr() 時,「oracle」應該返回 true; 在第二次(遞歸)調用時,它也應該返回 true,但在第三次調用時,它應該返回 false,以便咱們能夠調用 term()。

在代碼中,應該是這樣:

def expr():
    if oracle() and expr() and expect('+') and term():
        return True
    if term():
        return True
    return False複製代碼

咱們該怎麼寫這樣的「oracle」呢?試試看吧......咱們能夠嘗試記錄在調用堆棧上的 expr() 的(左遞歸)調用次數,並將其與下面表達式中「+」 運算符的數量進行比較。若是調用堆棧的深度大於運算符的數量,則應該返回 false。

我幾乎想用sys._getframe() 來實現它,但有更好的方法:讓咱們反轉調用的堆棧!

這裏的想法是咱們從 oracle 返回 false 處調用,並保存結果。這就有了expr()->term()->'foo' 。(它應該返回初始的term 的解析樹,即'foo' 。上面的代碼僅返回 True,但在本系列第二篇文章中,我已經演示瞭如何返回一個解析樹。)很容易編寫一個 oracle 來實現,它應該在首次調用時就返回 false——不須要檢查堆棧或向前回看。

而後咱們再次調用expr() ,這時 oracle 會返回 true,可是咱們不對 expr() 進行左遞歸調用,而是用前一次調用時保存的結果來替換。瞧吶,預期的'+' 運算符及隨後的term 也出現了,因此咱們將會獲得foo + bar

咱們重複這個過程,而後事情看起來又很清晰了:此次咱們會獲得完整表達式的解析樹,而且它是正確的左遞歸((foo + bar)+ baz )。

而後咱們再次重複該過程,這一次,oracle 返回 true,而且前一次調用時保存的結果可用,沒有下一步的'+' 運算符,而且第一個備選項失效。因此咱們嘗試第二個備選項,它會成功,正好找到了初始的 term('foo')。與以前的調用相比,這是一個糟糕的結果,因此在這裏咱們中止並留下最長的解析(即(foo + bar)+ baz )。

爲了將其轉換爲實際的工做代碼,我首先要稍微重寫代碼,以將 oracle() 的調用與左遞歸的 expr() 調用相結合。咱們稱之爲oracle_expr() 。代碼:

def expr():
    if oracle_expr() and expect('+') and term():
        return True
    if term():
        return True
    return False複製代碼

接着,咱們將編寫一個實現上述邏輯的裝飾器。它使用了一個全局變量(不用擔憂,我稍後會改掉它)。oracle_expr() 函數將讀取該全局變量,而裝飾器操縱着它:

saved_result = None
def oracle_expr():
    if saved_result is None:
        return False
    return saved_result
def expr_wrapper():
    global saved_result
    saved_result = None
    parsed_length = 0
    while True:
        new_result = expr()
        if not new_result:
            break
        new_parsed_length = <calculate size of new_result>
        if new_parsed_length <= parsed_length:
            break
        saved_result = new_result
        parsed_length = new_parsed_length
    return saved_result複製代碼

這過程固然是可悲的,但它展現了代碼的要點,因此讓咱們嘗試一下,將它發展成咱們能夠引覺得傲的東西。

決定性的洞察(這是我本身的,雖然我可能不是第一個想到的)是咱們可使用記憶緩存而不是全局變量,將一次調用的結果保存到下一次,而後咱們不須要額外的oracle_expr() 函數——咱們能夠生成對 expr() 的標準調用,不管它是否處於左遞歸的位置。

爲了作到這點,咱們須要一個單獨的 @memoizeleftrec 裝飾器,它只用於左遞歸規則。它經過將保存的值從記憶緩存中取出,充當了 oracle_expr() 函數的角色,而且它包含着一個循環調用,只要每一個新結果所覆蓋的部分比前一個長,就反覆地調用 expr()。

固然,由於記憶緩存分別按輸入位置和每一個解析方法來處理緩存,因此它不受回溯或多個遞歸規則的影響(例如,在玩具語法中,我一直使用 expr 和 term 都是左遞歸的)。

我在第 3 篇文章中建立的基礎結構的另外一個不錯的屬性是它更容易檢查新結果是否長於舊結果:mark() 方法將索引返回到輸入的標記符數組中,所以咱們可使用它,而非上面的parsed_length 。

我沒有證實爲何這個算法老是有效的,無論這個語法有多瘋狂。那是由於我實際上沒有讀過那個證實。我看到它適用於玩具語法中的 expr 等簡單狀況,也適用於更復雜的狀況(例如,涉及一個備選項裏可選條目背後藏着的左遞歸,或涉及多個規則之間的相互遞歸),但在 Python 的語法中,我能想到的最複雜的狀況仍然至關溫和,因此我能夠信任於定理和證實它的人。

因此讓咱們堅持幹,並展現一些真實的代碼。

首先,解析器生成器必須檢測哪些規則是左遞歸的。這是圖論中一個已解決的問題。我不會在這裏展現算法,事實上我將進一步簡化工做,並假設語法中惟一的左遞歸規則就是直接左遞歸的,就像咱們的玩具語法中的 expr 同樣。而後檢查左遞歸只須要查找以當前規則名稱開頭的備選項。咱們能夠這樣寫:

def is_left_recursive(rule):
    for alt in rule.alts:
        if alt[0] == rule.name:
            return True
    return False複製代碼

如今咱們修改解析器生成器,以便對於左遞歸規則,它能生成一個不一樣的裝飾器。回想一下,在第 3 篇文章中,咱們使用 @memoize 修飾了全部的解析方法。咱們如今對生成器進行一個小小的修改,對於左遞歸規則,咱們替換成 @memoizeleftrec ,而後咱們在memoizeleftrec 裝飾器中變魔術。生成器的其他部分和支持代碼無需更改!(然而我不得不在可視化代碼中搗鼓一下。)

做爲參考,這裏是原始的 @memoize 裝飾器,從第 3 篇中複製而來。請注意,self 是一個Parser 實例,它具備 memo 屬性(用空字典初始化)、mark() 和 reset() 方法,用於獲取和設置 tokenizer 的當前位置:

def memoize(func):
    def memoize_wrapper(self, *args):
        pos = self.mark()
        memo = self.memos.get(pos)
        if memo is None:
            memo = self.memos[pos] = {}
        
        key = (func, args)
        if key in memo:
            res, endpos = memo[key]
            self.reset(endpos)
        else:
            res = func(self, *args)
            endpos = self.mark()
            memo[key] = res, endpos
        return res
    return memoize_wrapper複製代碼

@memoize 裝飾器在每一個輸入位置記住了前一調用——在輸入標記符的(惰性)數組的每一個位置,有一個單獨的memo 字典。memoize_wrapper 函數的前四行與獲取正確的`memo` 字典有關。

這是 @memoizeleftrec 。只有 else 分支與上面的 @memoize 不一樣:

def memoize_left_rec(func):
    def memoize_left_rec_wrapper(self, *args):
        pos = self.mark()
        memo = self.memos.get(pos)
        if memo is None:
            memo = self.memos[pos] = {}
        key = (func, args)
        if key in memo:
            res, endpos = memo[key]
            self.reset(endpos)
        else:
            # Prime the cache with a failure.
            memo[key] = lastres, lastpos = None, pos
            # Loop until no longer parse is obtained.
            while True:
                self.reset(pos)
                res = func(self, *args)
                endpos = self.mark()
                if endpos <= lastpos:
                    break
                memo[key] = lastres, lastpos = res, endpos
            res = lastres
            self.reset(lastpos)
        return res
    return memoize_left_rec_wrapper複製代碼

它極可能有助於顯示生成的 expr() 方法,所以咱們能夠跟蹤裝飾器和裝飾方法之間的流程:

@memoize_left_rec 
    def expr(self):
        pos = self.mark()
        if ((expr := self.expr()) and
            self.expect('+') and
            (term := self.term())):
            return Node('expr', [expr, term])
        self.reset(pos)
        if term := self.term():
            return Node('term', [term])
        self.reset(pos)
        return None複製代碼

讓咱們試着解析 foo + bar + baz

每當你調用被裝飾的 expr() 函數時,裝飾器就會「攔截」調用,它會在當前位置查找前一個調用。在第一個調用處,它會進入 else 分支,在那裏它重複地調用未裝飾的函數。當未裝飾的函數調用 expr() 時,這固然指向了被裝飾的版本,所以這個遞歸調用會再次被截獲。遞歸在這裏中止,由於如今 memo 緩存有了命中。

接下來呢?初始的緩存值來自這行:

# Prime the cache with a failure.
            memo[key] = lastres, lastpos = None, pos複製代碼

這使得被裝飾的 expr() 返回 None,在那 expr() 裏的第一個 if 會失敗(在expr := self.expr() )。因此咱們繼續到第二個 if,它成功識別了一個 term(在咱們的例子中是 ‘foo’),expr 返回一個 Node 實例。它返回到了哪裏?到了裝飾器裏的 while 循環。這新的結果會更新 memo 緩存(那個 node 實例),而後開始下一個迭代。

再次調用未裝飾的 expr(),此次截獲的遞歸調用返回新緩存的 Node 實例(一個 term)。這是成功的,調用繼續到 expect('+')。這再次成功,而後咱們如今處於第一個「+」 操做符。在此以後,咱們要查找一個 term,也成功了(找到 'bar')。

因此對於空的 expr(),目前已識別出 foo + bar ,回到 while 循環,還會經歷相同的過程:用新的(更長的)結果來更新 memo 緩存,並開啓下一輪迭代。

遊戲再次上演。被截獲的遞歸 expr() 調用再次從緩存中檢索新的結果(此次是 foo + bar),咱們指望並找到另外一個 ‘+’(第二個)和另外一個 term(‘baz’)。咱們構造一個 Node 表示 (foo + bar) + baz ,並返回給 while 循環,後者將它填充進 memo 緩存,並再次迭代。

但下一次事情會有所不一樣。有了新的結果,咱們查找另外一個 '+' ,但沒有找到!因此這個expr() 調用會回到它的第二個備選項,並返回一個可憐的 term。當走到 while 循環時,它失望地發現這個結果比最後一個短,就中斷了,將更長的結果((foo + bar)+ baz )返回給原始調用,就是初始化了外部 expr() 調用的地方(例如,一個 statement() 調用——此處未展現)。

到此,今天的故事結束了:咱們已經成功地在 PEG(-ish)解析器中馴服了左遞歸。至於下週,我打算論述在語法中添加「動做」(actions),這樣咱們就能夠爲一個給定的備選項的解析方法,自定義它返回的結果(而不是總要返回一個 Node 實例)。

若是你想使用代碼,請參閱GitHub倉庫。(我還爲左遞歸添加了可視化代碼,但我並不特別滿意,因此不打算在這裏給出連接。)

本文內容與示例代碼的受權協議:CC BY-NC-SA 4.0

做者簡介: Guido van Rossum,Python 的創造者,一直是「終身仁慈獨裁者」,直到 2018 年 7 月 12 日退位。目前,他是新的最高決策層的五位成員之一,依然活躍在社區中。本文出自他在 Medium 開博客所寫的解析器系列,該系列仍在連載中,每週日更新。

譯者簡介: 豌豆花下貓,生於廣東畢業於武大,現爲蘇漂程序員,有一些極客思惟,也有一些人文情懷,有一些溫度,還有一些態度。公衆號:「Python貓」(python_cat)。

公衆號【Python貓】, 本號連載優質的系列文章,有喵星哲學貓系列、Python進階系列、好書推薦系列、技術寫做、優質英文推薦與翻譯等等,歡迎關注哦。

相關文章
相關標籤/搜索