編譯器,是將便於人編寫,閱讀,維護的高級計算機語言翻譯爲計算機能識別,運行的低級機器語言的程序。編譯器將源程序(Source program)做爲輸入,翻譯產生使用目標語言(Target language)的等價程序。源程序通常爲高級語言(High-level language),如Pascal,C++等,而目標語言則是彙編語言或目標機器的目標代碼(Object code),有時也稱做機器代碼(Machine code)。html
一個現代編譯器的主要工做流程以下:前端
源代碼(sourcecode)→預處理器(preprocessor)→編譯器(compiler)→彙編程序(assembler)→目標代碼(objectcode)→鏈接器(Linker)→可執行程序(executables)程序員
編譯語言與解釋語言對比:正則表達式
許多人將高級程序語言分爲兩類:編譯型語言和解釋型語言。然而,實際上,這些語言中的大多數既可用編譯型實現也可用解釋型實現,分類實際上反映的是那種語言常見的實現方式。(可是,某些解釋型語言,很難用編譯型實現。好比那些容許在線代碼更改的解釋型語言。)算法
編譯器是一種特殊的程序,它能夠把以特定編程語言寫成的程序變爲機器能夠運行的機器碼。把一個程序寫好,這時利用的環境是文本編輯器。這時我程序把程序稱爲源程序。在此之後程序員能夠運行相應的編譯器,經過指定須要編譯的文件的名稱就能夠把相應的源文件(經過一個複雜的過程)轉化爲機器碼了。編程
![]() |
編譯器 |
典型的編譯器輸出是由包含入口點的名字和地址以及外部調用(到不在這個目標文件中的函數調用)的機器代碼所組成的目標文件。一組目標文件,沒必要是同一編譯器產生,但使用的編譯器必需採用一樣的輸出格式,能夠連接在一塊兒並生成能夠由用戶直接執行的可執行程序。後端
![]() |
編譯器 |
預處理器:預處理器(preprocessor)做用是經過代入預約義等程序段將源程序補充完整。數組
編譯器前端:編譯器前端(frontend),前端主要負責解析(parse)輸入的源程序,由詞法分析器和語法分析器協同工做。詞法分析器負責把源程序中的‘單詞’(Token)找出來,語法分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式,語句 ,函數等等。 例如「a = b + c;」前端詞法分析器看到的是「a = b ; + c;」,語法分析器按定義的語法,先把他們組裝成表達式「b + c」,再組裝成「a = b + c」的語句。 前端還負責語義(semantic checking)的檢查,例如檢測參與運算的變量是不是同一類型的,簡單的錯誤處理。最終的結果經常是一個抽象的語法樹(abstract syntax tree,或 AST),這樣後端能夠在此基礎上進一步優化,處理。緩存
編譯器後端:編譯器後端(backend)編譯器後端主要負責分析,優化中間代碼(Intermediate representation)以及生成機器代碼(Code Generation)。網絡
編譯器分析,優化,變型均可以分紅兩大類: 函數內(intraprocedural)仍是函數之間(interprocedural)進行。很明顯,函數間的分析,優化更準確,但須要更長的時間來完成。對於函數內的優化,有能夠根據優化施加的範圍分爲,全局的(global)和局部的(local)。其中全局的優化是指該優化須要使用到全局的數據流和控制流信息。而局部的優化是指指導優化的信息來自基本快。
![]() |
編譯器 |
常見的編譯分析有函數調用樹(call tree),控制流程圖(Control flow graph),以及在此基礎上的 變量定義-使用,使用-定義鏈(define-use/use-define or u-d/d-u chain),變量別名分析(alias analysis),指針分析(pointer analysis),數據依賴分析(data dependence analysis)等。
程序分析結果是編譯器優化(compiler optimization)和程序變形(compiler transformation)的前提條件。常見的優化和變新有:函數內嵌(inlining),無用代碼刪除(Dead code elimination),標準化循環結構(loop normalization),循環體展開(loop unrolling),循環體合併,分裂(loop fusion,loop fission),數組填充(array padding),等等。 優化和變形的目的是減小代碼的長度,提升內存(memory),緩存(cache)的使用率,減小讀寫磁盤,訪問網絡數據的頻率。更高級的優化甚至能夠把序列化的代碼(serial code)變成並行運算,多線程的代碼(parallelized,multi-threaded code)。
機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成彙編代碼(assembly code)的策略,而不直接生成二進制的目標代碼(binary object code)。即便在代碼生成階段,高級編譯器仍然要作不少分析,優化,變形的工做。例如如何分配寄存器(register allocatioin),如何選擇合適的機器指令(instruction selection),如何合併幾句代碼成一句等等。
![]() |
編譯器 |
有限狀態自動機(Finite Automaton)和正則表達式(Regular Expression)同上下文無關文法緊密相關,它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始,而且引出了表示程序設計語言的單詞的符號方式。
人們接着又深化了生成有效目標代碼的方法,這就是最初的編譯器,它們被一直使用至今。人們一般將其稱爲優化技術(Optimization Technique),但因其從未真正地獲得過被優化了的目標代碼而僅僅改進了它的有效性,所以實際上應稱做代碼改進技術(Code Improvement Technique)。
當分析問題變得好懂起來時,人們就在開發程序上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程序最初被稱爲編譯器的編譯器(Compiler-compiler),但更確切地應稱爲分析程序生成器(Parser Generator),這是由於它們僅僅可以自動處理編譯的一部分。這些程序中最著名的是Yacc(Yet Another Compiler-compiler),它是由Steve Johnson在1975年爲Unix系統編寫的。相似的,有限狀態自動機的研究也發展了一種稱爲掃描程序生成器(Scanner Generator)的工具,Lex(與Yacc同時,由Mike Lesk爲Unix系統開發)是這其中的佼佼者。
在70年代後期和80年代早期,大量的項目都貫注於編譯器其它部分的生成自動化,這其中就包括了代碼生成。這些嘗試並未取得多少成功,這大概是由於操做太複雜而人們又對其不甚瞭解。
編譯器設計發展包括:首先,編譯器包括了更加複雜算法的應用程序它用於推斷或簡化程序中的信息;這又與更爲複雜的程序設計語言的發展結合在一塊兒。其中典型的有用於函數語言編譯的Hindley-Milner類型檢查的統一算法。其次,編譯器已愈來愈成爲基於窗口的交互開發環境(Interactive Development Environment,IDE)的一部分,它包括了編輯器、鏈接程序、調試程序以及項目管理程序。這樣的IDE標準並無多少,可是對標準的窗口環境進行開發已成爲方向。另外一方面,儘管近年來在編譯原理領域進行了大量的研究,可是基本的編譯器設計原理在近20年中都沒有多大的改變,它如今正迅速地成爲計算機科學課程中的中心環節。
在90年代,做爲GNU項目或其它開放源代碼項目的一部分,許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯全部的計算機程序語言。它們中的一些項目被認爲是高質量的,並且對現代編譯理論感性趣的人能夠很容易的獲得它們的免費源代碼。
大約在1999年,SGI公佈了他們的一個工業化的並行化優化編譯器Pro64的源代碼,後被全世界多個編譯器研究小組用來作研究平臺,並命名爲Open64。Open64的設計結構好,分析優化全面,是編譯器高級研究的理想平臺。
![]() |
編譯器 |
而後進行語義分析,就是把各個由語法分析分析出的語法單元的意義搞清楚。
最後生成的是目標文件,也稱爲obj文件。
再通過連接器的連接就能夠生成最後的可執行代碼了。
有些時候須要把多個文件產生的目標文件進行連接,產生最後的代碼。這一過程稱爲交叉連接。