編譯原理實戰入門:用 JavaScript 寫一個簡單的四則運算編譯器(一)詞法分析

編譯器

編譯器是一個程序,做用是將一門語言翻譯成另外一門語言。git

通常的程序,CPU 是沒法直接執行的,由於 CPU 只能識別機器指令。因此要想執行一個程序,首先要將高級語言編寫的程序翻譯爲彙編代碼,再將彙編代碼翻譯爲機器指令,這樣 CPU 才能識別並執行。程序員

示例:github

// CPU 沒法識別
10 + 5

// 翻譯成彙編語言
push 10
push 5
add

// 最後翻譯爲機器指令 彙編代碼和機器指令一一對應
// 機器指令由 1 和 0 組成,如下指令非真實指令,只作演示用
0011101001010101
1101010011100101
0010100111100001

學會編譯原理有什麼好處?express

對編譯過程內部原理的掌握將會使你成爲更好的高級程序員。翻譯

詞法分析

程序其實就是保存在文本文件中的一系列字符,詞法分析的做用是將這一系列字符按照某種規則分解成一個個字元(token,也稱爲終結符),忽略空格和註釋。code

示例:token

// 程序代碼
10 + 5 + 6

// 詞法分析後獲得的 token
10
+
5
+
6

終結符

終結符就是語言中用到的基本元素,通常不能再被分解。ip

四則運算中的終結符包括符號和整數常量(暫不支持一元操做符)。get

符號+ - * / ( )編譯器

整數常量:十二、1000、111...

詞法分析代碼實現

function lexicalAnalysis(expression) {
    const symbol = ['(', ')', '+', '-', '*', '/']
    const re = /\d/
    const tokens = []
    const chars = expression.trim().split('')
    let token = ''
    chars.forEach(c => {
        if (re.test(c)) {
            token += c
        } else if (c == ' ' && token) {
            tokens.push(token)
            token = ''
        } else if (symbol.includes(c)) {
            if (token) {
                tokens.push(token)
                token = ''
            } 

            tokens.push(c)
        }
    })

    if (token) {
        tokens.push(token)
    }

    return tokens
}

console.log(lexicalAnalysis('100    +   23   +    34 * 10 / 2')) 
// ["100", "+", "23", "+", "34", "*", "10", "/", "2"]

參考資料:計算機系統要素

相關文章
相關標籤/搜索