編譯器工做原理

時間 2019-12-07

標籤編譯器原理简体版

原文原文鏈接

編譯器工做原理(轉)

編譯器，是將便於人編寫，閱讀，維護的高級計算機語言翻譯爲計算機能識別，運行的低級機器語言的程序。編譯器將源程序（Source program）做爲輸入，翻譯產生使用目標語言（Target language）的等價程序。源程序通常爲高級語言（High-level language），如Pascal，C++等，而目標語言則是彙編語言或目標機器的目標代碼（Object code），有時也稱做機器代碼（Machine code）。html

一個現代編譯器的主要工做流程以下：前端

源代碼(sourcecode)→預處理器(preprocessor)→編譯器(compiler)→彙編程序(assembler)→目標代碼(objectcode)→鏈接器(Linker)→可執行程序(executables)程序員

編譯語言與解釋語言對比：正則表達式

許多人將高級程序語言分爲兩類：編譯型語言和解釋型語言。然而，實際上，這些語言中的大多數既可用編譯型實現也可用解釋型實現，分類實際上反映的是那種語言常見的實現方式。（可是，某些解釋型語言，很難用編譯型實現。好比那些容許在線代碼更改的解釋型語言。）算法

編譯器是一種特殊的程序，它能夠把以特定編程語言寫成的程序變爲機器能夠運行的機器碼。把一個程序寫好，這時利用的環境是文本編輯器。這時我程序把程序稱爲源程序。在此之後程序員能夠運行相應的編譯器，經過指定須要編譯的文件的名稱就能夠把相應的源文件（經過一個複雜的過程）轉化爲機器碼了。編程

編譯器-工做原理

編譯器

翻譯是從源代碼（一般爲高級語言）到能直接被計算機或虛擬機執行的目標代碼（一般爲低級語言或機器言）。然而，也存在從低級語言到高級語言的編譯器，這類編譯器中用來從由高級語言生成的低級語言代碼從新生成高級語言代碼的又被叫作反編譯器。也有從一種高級語言生成另外一種高級語言的編譯器，或者生成一種須要進一步處理的的中間代碼的編譯器（又叫級聯）。

典型的編譯器輸出是由包含入口點的名字和地址以及外部調用（到不在這個目標文件中的函數調用）的機器代碼所組成的目標文件。一組目標文件，沒必要是同一編譯器產生，但使用的編譯器必需採用一樣的輸出格式，能夠連接在一塊兒並生成能夠由用戶直接執行的可執行程序。後端

編譯器-種類概述

編譯器

編譯器能夠生成用來在與編譯器自己所在的計算機和操做系統（平臺）相同的環境下運行的目標代碼，這種編譯器又叫作「本地」編譯器。另外，編譯器也能夠生成用來在其它平臺上運行的目標代碼，這種編譯器又叫作交叉編譯器。交叉編譯器在生成新的硬件平臺時很是有用。「源碼到源碼編譯器」是指用一種高級語言做爲輸入，輸出也是高級語言的編譯器。例如: 自動並行化編譯器常常採用一種高級語言做爲輸入，轉換其中的代碼，並用並行代碼註釋對它進行註釋（如OpenMP）或者用語言構造進行註釋（如FORTRAN的DOALL 指令）。

預處理器：預處理器（preprocessor）做用是經過代入預約義等程序段將源程序補充完整。數組

編譯器前端：編譯器前端（frontend），前端主要負責解析（parse）輸入的源程序，由詞法分析器和語法分析器協同工做。詞法分析器負責把源程序中的‘單詞’（Token）找出來，語法分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式，語句，函數等等。例如「a = b + c；」前端詞法分析器看到的是「a = b ； + c；」，語法分析器按定義的語法，先把他們組裝成表達式「b + c」，再組裝成「a = b + c」的語句。前端還負責語義（semantic checking）的檢查，例如檢測參與運算的變量是不是同一類型的，簡單的錯誤處理。最終的結果經常是一個抽象的語法樹（abstract syntax tree，或 AST），這樣後端能夠在此基礎上進一步優化，處理。緩存

編譯器後端：編譯器後端（backend）編譯器後端主要負責分析，優化中間代碼（Intermediate representation）以及生成機器代碼（Code Generation）。網絡

編譯器分析，優化，變型均可以分紅兩大類：函數內（intraprocedural）仍是函數之間（interprocedural）進行。很明顯，函數間的分析，優化更準確，但須要更長的時間來完成。對於函數內的優化，有能夠根據優化施加的範圍分爲，全局的（global）和局部的（local）。其中全局的優化是指該優化須要使用到全局的數據流和控制流信息。而局部的優化是指指導優化的信息來自基本快。

編譯器-代碼分析

編譯器

編譯器分析（compiler analysis）的對象是前端生成並傳遞過來的中間代碼，現代的優化型編譯器（optimizing compiler）經常用好幾種層次的中間代碼來表示程序，高層的中間代碼（high level IR）接近輸入的源程序的格式，與輸入語言相關（language dependent），包含更多的全局性的信息，和源程序的結構；中層的中間代碼（middle level IR）與輸入語言無關，低層的中間代碼(Low level IR)與機器語言相似。不一樣的分析，優化發生在最適合的那一層中間代碼上。

常見的編譯分析有函數調用樹（call tree），控制流程圖（Control flow graph），以及在此基礎上的變量定義－使用，使用－定義鏈（define-use/use-define or u-d/d-u chain），變量別名分析（alias analysis），指針分析（pointer analysis），數據依賴分析（data dependence analysis）等。

程序分析結果是編譯器優化（compiler optimization）和程序變形（compiler transformation）的前提條件。常見的優化和變新有：函數內嵌（inlining），無用代碼刪除（Dead code elimination），標準化循環結構（loop normalization），循環體展開（loop unrolling），循環體合併，分裂（loop fusion，loop fission），數組填充（array padding），等等。優化和變形的目的是減小代碼的長度，提升內存（memory），緩存（cache）的使用率，減小讀寫磁盤，訪問網絡數據的頻率。更高級的優化甚至能夠把序列化的代碼（serial code）變成並行運算，多線程的代碼（parallelized，multi-threaded code）。

機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成彙編代碼（assembly code）的策略，而不直接生成二進制的目標代碼（binary object code）。即便在代碼生成階段，高級編譯器仍然要作不少分析，優化，變形的工做。例如如何分配寄存器（register allocatioin），如何選擇合適的機器指令（instruction selection），如何合併幾句代碼成一句等等。

編譯器-歷史回溯

編譯器

20世紀50年代， IBM的John Backus帶領一個研究小組對FORTRAN語言及其編譯器進行開發。但因爲當時人們對編譯理論瞭解很少，開發工做變得既複雜又艱苦。與此同時，Noam Chomsky開始了他對天然語言結構的研究。他的發現最終使得編譯器的結構異常簡單，甚至還帶有了一些自動化。Chomsky的研究致使了根據語言文法的難易程度以及識別它們所須要的算法來對語言分類。正如如今所稱的Chomsky架構（Chomsky Hierarchy），它包括了文法的四個層次：0型文法、1型文法、2型文法和3型文法，且其中的每個都是其前者的特殊狀況。2型文法（或上下文無關文法）被證實是程序設計語言中最有用的，並且今天它已表明着程序設計語言結構的標準方式。分析問題（parsing problem，用於上下文無關文法識別的有效算法）的研究是在60年代和70年代，它至關完善的解決了這個問題。如今它已經是編譯原理中的一個標準部分。

有限狀態自動機（Finite Automaton）和正則表達式（Regular Expression）同上下文無關文法緊密相關，它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始，而且引出了表示程序設計語言的單詞的符號方式。

人們接着又深化了生成有效目標代碼的方法，這就是最初的編譯器，它們被一直使用至今。人們一般將其稱爲優化技術（Optimization Technique），但因其從未真正地獲得過被優化了的目標代碼而僅僅改進了它的有效性，所以實際上應稱做代碼改進技術（Code Improvement Technique）。

當分析問題變得好懂起來時，人們就在開發程序上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程序最初被稱爲編譯器的編譯器（Compiler-compiler），但更確切地應稱爲分析程序生成器（Parser Generator），這是由於它們僅僅可以自動處理編譯的一部分。這些程序中最著名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年爲Unix系統編寫的。相似的，有限狀態自動機的研究也發展了一種稱爲掃描程序生成器（Scanner Generator）的工具，Lex（與Yacc同時，由Mike Lesk爲Unix系統開發）是這其中的佼佼者。

在70年代後期和80年代早期，大量的項目都貫注於編譯器其它部分的生成自動化，這其中就包括了代碼生成。這些嘗試並未取得多少成功，這大概是由於操做太複雜而人們又對其不甚瞭解。

編譯器設計發展包括：首先，編譯器包括了更加複雜算法的應用程序它用於推斷或簡化程序中的信息；這又與更爲複雜的程序設計語言的發展結合在一塊兒。其中典型的有用於函數語言編譯的Hindley-Milner類型檢查的統一算法。其次，編譯器已愈來愈成爲基於窗口的交互開發環境（Interactive Development Environment，IDE）的一部分，它包括了編輯器、鏈接程序、調試程序以及項目管理程序。這樣的IDE標準並無多少，可是對標準的窗口環境進行開發已成爲方向。另外一方面，儘管近年來在編譯原理領域進行了大量的研究，可是基本的編譯器設計原理在近20年中都沒有多大的改變，它如今正迅速地成爲計算機科學課程中的中心環節。

在90年代，做爲GNU項目或其它開放源代碼項目的一部分，許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯全部的計算機程序語言。它們中的一些項目被認爲是高質量的，並且對現代編譯理論感性趣的人能夠很容易的獲得它們的免費源代碼。

大約在1999年，SGI公佈了他們的一個工業化的並行化優化編譯器Pro64的源代碼，後被全世界多個編譯器研究小組用來作研究平臺，並命名爲Open64。Open64的設計結構好，分析優化全面，是編譯器高級研究的理想平臺。