編譯原理實戰入門：用 JavaScript 寫一個簡單的四則運算編譯器（一）詞法分析

時間 2019-11-08

標籤編譯原理實戰入門 javascript 一個簡單四則運算編譯器詞法分析欄目 JavaScript 简体版

原文原文鏈接

編譯器

編譯器是一個程序，做用是將一門語言翻譯成另外一門語言。git

通常的程序，CPU 是沒法直接執行的，由於 CPU 只能識別機器指令。因此要想執行一個程序，首先要將高級語言編寫的程序翻譯爲彙編代碼，再將彙編代碼翻譯爲機器指令，這樣 CPU 才能識別並執行。程序員

示例：github

// CPU 沒法識別
10 + 5

// 翻譯成彙編語言
push 10
push 5
add

// 最後翻譯爲機器指令 彙編代碼和機器指令一一對應
// 機器指令由 1 和 0 組成，如下指令非真實指令，只作演示用
0011101001010101
1101010011100101
0010100111100001

學會編譯原理有什麼好處？express

對編譯過程內部原理的掌握將會使你成爲更好的高級程序員。翻譯

詞法分析

程序其實就是保存在文本文件中的一系列字符，詞法分析的做用是將這一系列字符按照某種規則分解成一個個字元（token，也稱爲終結符），忽略空格和註釋。code

示例：token

// 程序代碼
10 + 5 + 6

// 詞法分析後獲得的 token
10
+
5
+
6

終結符

終結符就是語言中用到的基本元素,通常不能再被分解。ip

四則運算中的終結符包括符號和整數常量（暫不支持一元操做符）。get

符號：+ - * / ( )編譯器

整數常量：十二、1000、111...

詞法分析代碼實現

function lexicalAnalysis(expression) {
    const symbol = ['(', ')', '+', '-', '*', '/']
    const re = /\d/
    const tokens = []
    const chars = expression.trim().split('')
    let token = ''
    chars.forEach(c => {
        if (re.test(c)) {
            token += c
        } else if (c == ' ' && token) {
            tokens.push(token)
            token = ''
        } else if (symbol.includes(c)) {
            if (token) {
                tokens.push(token)
                token = ''
            } 

            tokens.push(c)
        }
    })

    if (token) {
        tokens.push(token)
    }

    return tokens
}

console.log(lexicalAnalysis('100    +   23   +    34 * 10 / 2')) 
// ["100", "+", "23", "+", "34", "*", "10", "/", "2"]

參考資料：計算機系統要素

相關標籤/搜索