Stanford公開課《編譯原理》學習筆記(1~4課)

時間 2019-11-07

標籤 stanford 開課編譯原理學習筆記简体版

原文原文鏈接

目錄html

示例代碼託管在：http://www.github.com/dashnowords/blogs前端

博客園地址：《大史住在大前端》原創博文目錄git

華爲雲社區地址：【你要的前端打怪升級指南】github

B站地址：【編譯原理】正則表達式

課程裏涉及到的內容講的仍是很清楚的，但個別地方有點脫節，任何看不懂卡住的地方，請自行查閱經典著做《Compilers——priciples, Techniques and Tools》(也就是大名鼎鼎的龍書）的對應章節。express

一. 編譯的基本流程

完整的編譯的5個基本步驟包括lexcical anlysis,parse,sematic,optimize,code generate。課程中並無使用複雜的編程語言，而是一種用於課堂教學的自發明語言COOL，很明顯老師爲它寫好了編譯器程序。編程

二. Lexical Analysis(詞法分析階段)

任務：將字符串分解成爲[Type, (Value)]元組的形式的詞法單元。編程語言

「龍書」裏的示例更爲直觀，例如表達式語句 E = M * C ** 2進行詞法分析後會獲得以下的相似結果：ide

[id,指向符號表中E的條目的指針]

[assign_op]

[id,指向符號表中M的條目的指針]

[mult_op]

[id,指向符號表中C的條目的指針]

[exp_op]

[number,整數值2]

詞法分析基本須要經歷以下幾個階段：

Lexical Specification——>Regular expressions——>NFA——>DFA——>Table-driven Implementation of DFA

2.1 Lexical Specification(分詞原則)

COOL中的基本Type包括以下幾個類別：

Indentifier標識符-指以字母開頭後續爲若干個字母或數字的字符組
Integer-指一組非空的數字字符
Keyword- 指語言中的關鍵詞，例如if，else等
Whitespace- 指一組非空的空格字符或換行符或製表符

不少程序設計語言中的分詞原則基本都會覆蓋關鍵字，運算符，標識符，常量，標點符號，他們也會在後面的實現中被做爲終止符集合，課程板書中也提供了COOL分詞原則的類正則形式。

分詞時類型的正則匹配默認爲貪婪模式，即匹配更多的字符。詞法單元也具有必定的優先級次序（一般也是代碼邏輯的實現順序），例如if從正則上來判斷既符合Keywords也符合Identifier，此時該單元的類型就應該標記爲Keywords。這個階段就完成了從Lecical Specification——>Regular expressions的部分。

2.2 Finite Automata (典型分詞算法-有窮自動機)

FA是一個能夠自動識別詞法單元的機器，它是一個狀態轉換圖，「有限」是指它包含的狀態是有限的，一個狀態讀入一個字符後，後繼的狀態可能爲：

後繼狀態爲自身
後繼狀態只有一個
後繼狀態有多個

若是每次轉換後的後繼狀態都是惟一的，則稱爲DFA（肯定有限自動機），若是後繼狀態可能有多個則稱爲NFA（不肯定有限狀態機）。因爲DFA的狀態轉移路徑是惟一的，因此做爲狀態查詢圖時，不管成功或者失敗只須要運行一次，但NFA就可能須要運行屢次。

正則表達式是能夠轉換爲NFA形式的，或許你已經在一些可視化正則表達式的網站上[https://regexper.com ]見過相似的形式。下圖比較清晰地展現了從正則表達式到NFA狀態圖的轉換規則(Regular expressions——>NFA)：

若是一個DFA和一個NFA可以識別的字符集是一致的，則稱它們爲等價的，對於任意NFA，必定存在一個DFA與其等價，由NFA構建DFA的過程被稱爲DFA的肯定化，也就是NFA——>DFA的過程。這個過程是圍繞ε -closure狀態集合的概念展開的，大體的過程就是從起點開始，每次將當前狀態和經過若干次ε轉換（它是一個特殊的狀態轉移函數，表示轉換後的狀態仍是當前狀態）做爲一個新的ε -closure狀態集合，使用矩陣記錄每一個ε -closure集合轉換先後的集合，最後對整個狀態轉移矩陣進行標記重命名，就能夠獲得一個DFA，事實上轉化後的DFA中的每個狀態，就是NFA中的一個ε -closure集合，你能夠將它理解成一個經過分組來簡化表達方式的過程，相關的過程能夠參考下面這個文章西北農林科技大學編譯原理課程PPT【詞法分析】，裏面圖比較多，可以輔助理解，本文再也不贅述。

三. 手動實現分詞器

至此1-4課就結束了，估計看視頻課程的人也是一臉懵逼，由於課程並無講解如何利用DFA獲得最終指望的形式——Token元組，那麼最後咱們就本身手動來實現一下。

3.1 基本定義

假設咱們須要對下面這段代碼進行分詞解析：

let snippet = `
var b3 = 2;
a = 1 + ( b3 + 4);
return a;
`;

那麼先來進行一些基本類型集合定義：

//解析結束標記
const EOF = undefined;

//Token Type 可識別的Token類型，
const TT = {
    num: 'num',
    id: 'id',
    keywords: 'keywords', //var | return 
    lparen: 'lparen',// (
    rparen: 'rparen',// )
    semicolon: 'semicolon', //;
    whitespace: 'whitespace', // \n | \t | \s  (空格，製表符，換行符) 
    plus: 'plus', // +
    assign: 'assign',// =
}

// 狀態集類型，除開始和結束外，其餘能夠與Token支持的類型相對應，每次分詞從start狀態開始，接收一個字符後改變狀態，直到在done狀態結束時，能夠獲得一個token
const S = {
    start: 'start',
    done: 'done',
    ...TT
}

進行工具函數定義：

//判斷是否爲關鍵詞(爲簡化流程，僅檢測上面示例中包含的關鍵詞)
const isKeywords = (token) => ['function', 'return', 'if', 'var'].includes(token);

//判斷是否爲數字
const isDigit = c => /\d/.test(c);

//判斷是否爲合法的標識符字符
const isValidId = c => /[A-Za-z0-9]/.test(c);

//判斷是否爲空格
const isBlank = c => /(\s|\t|\n)/.test(c);

3.2 構建DFA

以上面定義的狀態集合和token類別爲依據構建DFA:

3.3 開始分詞

分詞的邏輯實際上就是，每次先將狀態置爲start,而後讀入一個字符，根據該字符判斷下一個狀態，只要沒有到達完成狀態done就繼續讀入字符，每次到達done狀態時，就能夠獲得一個token，將其記錄下來，而後從新將狀態置爲start，開始尋找下一個token直到分析完整個代碼段。也就是說DFA狀態機每運行一輪，就獲得一個token。參考代碼以下：

/**
 * 詞法分析
 */
function tokenize(code) {
    let state = S.start;
    let currentToken;//標記當前尋找到的token
    let index = 0;//起始指針,每次分析指向start狀態
    let lookup = 0;//前探指針,每次分析最終指向done狀態，start->done之間的字符即爲token

    while (code[lookup] !== EOF) { //若是還有字符

        while (state !== S.done) { //開始拆分token

            //獲取下一個字符
            let c = code[lookup++];
            //根據當前狀態和下一個字符判斷DFA如何跳轉
            switch (state) {
                case S.start: //開始爲空集,實現DFA中各個狀態轉移分支
                    if (isDigit(c)) {
                        state = S.num;
                    } else if (isValidId(c)) {
                        state = S.id;
                    } else if (isBlank(c)) {
                        state = S.done;
                    } else if (c === '=') {
                        currentToken = [TT.assign, '=']
                        state = S.done;
                    } else if (c === '+') {
                        currentToken = [TT.plus, '+']
                        state = S.done;
                    } else if (c === ';') {
                        currentToken = [TT.semicolon, ';']
                        state = S.done;
                    };
                break;
                case S.num: //若是是整數
                    if (isDigit(c)) {
                        state = S.num;
                    } else {
                        currentToken = [TT.num, code.slice(index,lookup - 1)];
                        lookup -= 1; //從數字狀態跳出後，最後一位須要參與下一輪分詞，故回退一位
                        state = S.done;
                    }
                break;
                case S.id: //若是是標識符狀態
                    if (isValidId(c)) {
                        state = S.id;
                    } else {
                        let tempToken = code.slice(index,lookup - 1);
                        lookup -= 1; //從標識符狀態跳出後，最後一位須要參與下一輪分詞，故回退一位
                        if (isKeywords(tempToken)) {
                            currentToken = [TT.keywords, tempToken];
                        }else{
                            currentToken = [TT.id, tempToken];
                        }
                        state = S.done;
                    }
                break;                 
            }
        }
        //state = S.done時跳出
        currentToken && console.log(currentToken);
        currentToken = undefined;

        //起指針跟上末指針
        index = lookup;

        //開始下一輪分詞
        state = S.start;
    }
}