大學課程爲何要開設編譯原理呢?這門課程關注的是編譯器方面的產生原理和技術問題,彷佛和計算機的基礎領域不沾邊,但是編譯原理卻一直做爲大學本科的必修課程,同時也成爲了研究生入學考試的必考內容。編譯原理及技術從本質上來說就是一個算法問題而已,固然因爲這個問題十分複雜,其解決算法也相對複雜。咱們學的數據結構與算法分析也是講算法的,不過講的基礎算法,換句話說講的是算法導論,而編譯原理這門課程講的就是比較專一解決一種的算法了。在20世紀50年代,編譯器的編寫一直被認爲是十分困難的事情,第一Fortran的編譯器聽說花了18年的時間才完成。在人們嘗試編寫編譯器的同時,誕生了許多跟編譯相關的理論和技術,而這些理論和技術比一個實際的編譯器自己價值更大。就猶如數學家們在解決著名的哥德巴赫猜測同樣,雖然沒有最終解決問題,可是其間誕生很多名著的相關數論。php
推薦參考書程序員
雖然編譯理論發展到今天,已經有了比較成熟的部分,可是做爲一個大學生來講,要本身寫出一個像Turboc C,Java那樣的編譯器來講仍是太難了。不只寫編譯器困難,學習編譯原理這門課程也比較困難。正則表達式
正是由於編譯原理學習相對困難,那麼就要求有好的教師和好的教材。教師方面不是咱們能本身更改的,而在教材方面咱們卻能夠按本身的意願來閱讀。我下面推薦幾本好的編譯原理的教材。我推薦的書籍都是國外的經典教材,由於在國內的教材中,確實還沒發現什麼讓人滿意的。算法
第一本書的原名叫《Compilers Principles,Techniques,and Tools》,另一個響亮的名字就是龍書。緣由是這本書的封面上有條紅色的龍,也由於獗臼樵詒嘁朐?砘?×煊蛉肥堤?忻???因此不少國外的學者都直接取名爲龍書。最近機械工業出版社已經出版了此書的中文版,名字就叫《編譯原理》。該書出的比較早,大概是在85或86年編寫完成的,做者之一仍是著名的貝爾實驗室的科學家。裏面講解的核心編譯原理至今都沒有變過,因此一直到今天,它的價值都非凡。這本書最大的特色就是一開始就經過一個實際的小例子,把編譯原理的大體內容羅列出來,讓不少編譯原理的初學者很快內心有了個底,也知道爲何會有這些理論,怎麼運用這些理論。而這一點是我感受國內的教材缺少的東西,因此國內的教材都不是寫給願意自學的讀者,總之讓人看了半天,殊不知道里面的東西有什麼用。數據結構
第二本書的原名叫《Modern Compiler Design》,中文名字叫作《現代編譯程序設計》。該書由人民郵電出版社所出。此書比較關注的是編譯原理的實踐,書中給出了很多的實際程序代碼,還有不少實際的編譯技術問題等等。此書另一個特色就是其「現代」而字。在傳統的編譯原理教材中,你是不可能看到如同Java中的「垃圾回收」等算法的。由於Java這樣的解釋執行語言是在近幾年才流行起來的東西。若是你想深刻學習編譯原理的理論知識,那麼你確定得看前面那本龍書,若是你想本身動手作一個先進的編譯器,那麼你得看這本《現代編譯程序設計》。函數
第三本書就是不少國內的編譯原理學者都推薦的那本《編譯原理及實踐》。或許是這本書引入國內比較早吧,我記得我是在高中就買了這本書,不過也是在前段時間才把整本書看完。此書做爲入門教程也的確是個不錯的選擇。書中給出的編譯原理講解也至關細緻,雖然不如前面的龍書那麼深刻,可是不少地方都是點到爲止,做爲大學本科教學已是十分深刻了。該書的特色就是注重實踐,不過感受還不如前面那本《現代編譯程序設計》的實踐味道更重。此書的重點仍是在原理上的實踐,而非前面那本那樣的技術實踐。《編譯原理及實踐》在講解編譯原理的各個部分的同時,也在逐步實踐一個現代的編譯器Tiny C.等你把整本書看完,差很少本身也能夠寫一個Tiny C了。做者還對Lex和Yacc這兩個經常使用的編譯相關的工具進行了很詳細的說明,這一點也是很難在國內的教材中看到的。工具
推薦了這三本教材,都有英文版和中文版的。不少英文好的同窗只喜歡看原版的書,不個人感受是這三本書的翻譯都很不錯,沒有必要特別去買英文版的。理解理論的實質比理解表面的文字更爲重要。學習
編譯原理的實質flex
前面已經說過,學習編譯原理其實也就是學習算法而已,沒什麼特別的。只不過這些算法的產生已經造成了一套理論。下面我來看看編譯原理裏面到底有什麼高深的理論吧。優化
幾乎每本編譯原理的教材都是分紅詞法分析,語法分析(LL算法,遞歸降低算法,LR算法),語義分析,運行時環境,中間代碼,代碼生成,代碼優化這些部分。其實如今不少編譯原理的教材都是按照85,86出版的那本龍書來安排教學內容的,因此那本龍書的內容格式幾乎成了如今編譯原理教材的定式,包括國內的教材也是如此。通常來講,大學裏面的本科教學是不可能把上面的全部部分都認真講完的,而是比較偏重於前面幾個部分。像代碼優化那部分東西,就像個無底洞同樣,若是要認真講,就是單獨開一個學期的課也不可能講得清楚。因此,通常對於本科生,對詞法分析和語法分析掌握要求就相對要高一點了。
詞法分析相對來講比較簡單。多是詞法分析程序自己實現起來很簡單吧,不少沒有學過編譯原理的人也一樣能夠寫出各類各樣的詞法分析程序。不過編譯原理在講解詞法分析的時候,重點把正則表達式和自動機原理加了進來,而後以一種十分標準的方式來說解詞法分析程序的產生。這樣的作法道理很明顯,就是要讓詞法分析從程序上升到理論的地步。
語法分析部分就比較麻煩一點了。如今通常有兩種語法分析算法,LL自頂向下算法和LR自底向上算法。LL算法還好說,到了LR算法的時候,困難就來了。不少自學編譯原理的都是遇到LR算法的理解成問題後就放棄了自學。其實這些東西都是隻要你們理解就能夠了,又不是像詞法分析那樣非得本身寫出來纔算真正的會。像LR算法的語法分析器,通常都是用工具Yacc來生成,實踐中徹底沒有比較本身來實現。對於LL算法中特殊的遞歸降低算法,由於其實踐十分簡單,那麼就應該要求每一個學生都能本身寫。固然,如今也有很多好的LL算法的語法分析器,不過要是換在非C平臺,好比Java,Delphi,你不能運用YACC工具了,那麼你就只有本身來寫語法分析器。
等學到詞法分析和語法分析時候,你可能會出現這樣的疑問:「詞法分析和語法分析到底有什麼?」就從編譯器的角度來說,編譯器須要把程序員寫的源程序轉換成一種方便處理的數據結構(抽象語法樹或語法樹),那麼這個轉換的過程就是經過詞法分析和語法分析的。其實詞法分析並不是一開始就被列入編譯器的必備部分,只是咱們爲了簡化語法分析的過程,就把詞法分析這種繁瑣的工做單獨提取出來,就成了如今的詞法分析部分。除了編譯器部分,在其它地方,詞法分析和語法分析也是有用的。好比咱們在DOS,Unix,Linux下輸入命令的時候,程序如何分析你輸入的命令形式,這也是簡單的應用。總之,這兩部分的工做就是把不「規則」的文本信息轉換成一種比較好分析好處理的數據結構。那麼爲何編譯原理的教程都最終把要分析的源分析轉換成「樹」這種數據結構呢?數據結構中有Stack, Line,List…這麼多數據結構,各自都有各自的特色。可是Tree這種結構有很強的遞歸性,也就是說咱們能夠把Tree的任何結點Node提取出來後,它依舊是一顆完整的Tree。這一點符合咱們如今編譯原理分析的形式語言,好比咱們在函數裏面使用函樹,循環中使用循環,條件中使用條件等等,那麼就能夠很直觀地表示在Tree這種數據結構上。一樣,咱們在執行形式語言的程序的時候也是如此的遞歸性。在編譯原理後面的代碼生成的部分,就會介紹一種堆棧式的中間代碼,咱們能夠根據分析出來的抽象語法樹,很容易,很機械地運用遞歸遍歷抽象語法樹就能夠生成這種指令代碼。而這種代碼其實也被普遍運用在其它的解釋型語言中。像如今流行的Java,.NET,其底層的字節碼bytecode,能夠說就是這中基於堆棧的指令代碼的。
關於語義分析,語法制導翻譯,類型檢查等等部分,其實都是一種完善前面獲得的抽象語法樹的過程。好比說,咱們寫C語言程序的時候,都知道,若是把一個浮點數直接賦值給一個整數,就會出現類型不匹配,那麼C語言的編譯器是怎麼知道的呢?就是經過這一步的類型檢查。像C++語言這中支持多態函數的語言,這部分要處理的問題就更多更復雜了。大部編譯原理的教材在這部分都是講解一些比較好的處理策略而已。由於新的問題老是在發生,舊的辦法不見得足夠解決。
原本說,做爲一個編譯器,起做用的部分就是用戶輸入的源程序到最終的代碼生成。可是在講解最終代碼生成的時候,又不得不講解機器運行環境等內容。由於若是你不知道機器是怎麼執行最終代碼的,那麼你固然沒法知道如何生成合適的最終代碼。這部份內容我自我感受其意義甚至超過了編譯原理自己。由於它會把一個計算機的程序的運行過程都統統排在你面前,你未來可能不會從事編譯器的開發工做,可是隻要是和計算機軟件開發相關的領域,都會涉及到程序的執行過程。運行時環境的講解會讓你更清楚一個計算機程序是怎麼存儲,怎麼裝載,怎麼執行的。關於部分的內容,我強烈建議你們看看龍書上的講解,做者從最基本的存儲組織,存儲分配策略,非局部名字的訪問,參數傳遞,符號表到動態存儲分配(malloc,new)都做了十分詳細的說明。這些東西都是咱們編寫日常程序的時候常常要作的事情,可是咱們卻少去探求其內部是如何完成。
關於中間代碼生成,代碼生成,代碼優化部分的內容就實在很差說了。國內不少教材到了這部分都會很簡單地蜻蜓點水講過去,學生聽了也只是做爲了解,不知道如何運用。不過這部份內容的東西若是要認真講,單獨開一學期的課程都講不完。在《編譯原理及實踐》的書上,對於這部分的講解就恰到好處。做者主要講解的仍是一種以堆棧爲基礎的指令代碼,十分通俗易懂,讓人看了後,很容易模仿,本身下來後就能夠寫本身的代碼生成。固然,對於其它代碼生成技術,代碼優化技術的講解就十分簡單了。若是要仔細研究代碼生成技術,其實另外還有本叫作《Advance Compiler Desgin and Implement》,那本書如今由機械工業出版社引進的,十分厚重,並且是英文原版。不過這本書我沒有把它列爲推薦書給你們,畢竟能把龍書的內容搞清楚,在中國已經就算很不錯的高手了,到那個時候再看這本《Advance Compiler Desgin and Implement》也不遲。代碼優化部分在大學本科教學中仍是一個不過重要的部分,就是算是實踐過程當中,相信你們也不太運用獲得。畢竟,本身作的編譯器能正確生成執行代碼已經很不錯了,還談什麼優化呢?
關於實踐
編譯原理的課程畢竟還只是講解原理的課程,不是專門的編譯技術課程。這兩門課程是有很大的區別的。編譯技術更關注實際的編寫編譯器過程當中運用到的技術,而原理的課關注講解其基本理論。可是計算機科學自己就是一門實踐性很強的課程,若是可以學以至用,那才叫真正的學會。李陽在講解瘋狂英語的時候就說到,只要當你會實際中運用一個單詞一個詞組的時候你才能叫學會了這個單詞或者詞組,而不是隻是知道了它的拼寫和意思。其實任何學習都是同樣的,若是缺乏了實踐的結合,你不能算學會。
編譯原理的課程主要就是講解編譯器產生的理論和原理,那麼很簡單,本身寫個編譯器就是最好的實踐過程了。不過你得當心,編譯系統多是全部軟件系統中最複雜的系統之一,否則爲何大學裏面還會把編譯器的編寫開成一門叫作編譯原理的課程來說?我很佩服那些學了操做系統原理就開始本身寫操做系統,學了編譯原理就開始本身寫編譯器的人們,確實,在中國,敢這麼作的學生太少了。且無論你這樣作能不能作成功,至少有了這個嘗試,會讓你的程序設計,系統規劃安排的功底增進很多。我下面給出一些關於實踐過程當中可能會遇到的困難,但願可以在你陷入困境的前幫你一把。
1. Lex和Yacc. 這兩工具是做爲詞法分析很語法分析的工具。若是你本身寫一個編譯器,我十分不建議你連詞法分析這種事情都親手來寫。Lex和Yacc應該是做爲每本編譯原理的教材的必備內容,但是在國內的教材中缺不多看到。這兩個工具是Unix系統下的小東西,若是你要在Windows中運用,那麼你最好去下在cygwin這個軟件。它是個在Windows下模擬Unix的東東,裏面就包含了flex.exe和bison.exe(yacc)這兩個工具.這兩個工具使用起來還挺麻煩的(其實unix 下的不少十分有用的工具都是這樣), 不過在《編譯原理與實踐》這本書上對於這兩個工具的講解十分詳細,還列舉了很多實際的例子。
2. 作解釋型語言比作生成機器代碼的編譯器簡單。雖說,作解釋型的編譯器,像Java那樣的,你還得本身去寫解釋器,不過這樣你就沒必要去查找機器代碼的資料了。若是你作生成的最終機器代碼編譯器可能會遇到問題還有就是寄存器爲基礎的代碼生成方法。前面說過,若是你生成的是以堆棧爲基礎的代碼,那麼其代碼生成過程十分簡單,須要考慮的東西也很少,若是你考慮最終的機器代碼生成的話,你必須考慮機器的寄存器如何分配等麻煩的問題。
3. 考慮用別人已經生成的語法文件,儘可能不要本身動手寫詞法文件和語法文件.之前一個朋友曾經說過,寫出一個好的程序語言的語法定義,就幾乎完成了一個編譯器的一半.確實是這樣,語法文件的編寫是個很難的事情.如今網上處處均可以找到好比C語言,C++,Java, Tiny C,Minus C等語言的詞法文件和語法文件,你徹底能夠本身下下來來用.
在《編譯原理及實踐》的書中,做者給出了一個Tiny C的所有代碼.我自我感受做者的這個編譯器作得很不錯,相對於其它php,perl等語言的源代碼來講,簡單得多,容易看懂,並且很清晰地展示了一個完成的編譯系統的實現過程.其源代碼能夠在做者的網站上下載
轉載自:http://blog.csdn.net/aben_2005/article/details/6445134