GCC編譯器選項及優化提示

版權聲明
本文做者是一位自由軟件愛好者,因此本文雖然不是軟件,可是本着 GPL 的精神發佈。任何人均可以自由使用、轉載、複製和再分發,但必須保留做者署名,亦不得對聲明中的任何條款做任何形式的修改,也不得附加任何其它條件。您能夠自由連接、下載、傳播此文檔,但前提是必須保證全文完整轉載,包括完整的版權信息和做譯者聲明。

其餘做品
本文做者十分願意與他人共享勞動成果,若是你對個人其餘翻譯做品或者技術文章有興趣,能夠在以下位置查看現有做品的列表:
金步國做品列表

BUG報告,切磋與探討
因爲做者水平有限,所以不能保證做品內容準確無誤,請在閱讀中自行鑑別。若是你發現了做品中的錯誤,請您來信指出,哪怕是錯別字也好,任何提升做品質量的建議我都將虛心接納。若是你願意就做品中的相關內容與我進行進一步切磋與探討,也歡迎你與我聯繫。聯繫方式:Email: csfrank@citiz.net ; QQ: 70171448 ; MSN: csfrank122@hotmail.com

==============================================


不少弟兄可能都很關心如何優化編譯本身的程序,雖然本人不同意"骨灰"玩法,卻也不得不認可這是掌握gcc的絕佳途徑;
所以獻上此帖,以供各位玩家參考,絕對原創噢

============================
大多數程序和庫在編譯時默認的優化級別是"2"(使用gcc選項:"-O2")而且在Intel/AMD平臺上默認按照i386處理器來編譯。
若是你只想讓編譯出來的程序運行在特定的平臺上,就須要執行更高級的編譯器優化選項,以產生只能運行於特定平臺的代碼。

一種方法是修改每一個源碼包中的Makefile文件,在其中尋找CFLAGS和CXXFLAGS變量(C和C++編譯器的編譯選項)並修改它的值。
一些源碼包好比binutils, gcc, glibc等等,在每一個子文件夾中都有Makefile文件,這樣修改起來就太累了!

另外一種簡易作法是設置CFLAGS和CXXFLAGS環境變量。大多數configure腳本會使用這兩個環境變量代替Makefile文件中的值。
可是少數configure腳本並不這樣作,他們必須須要手動編輯才行。

爲了設置CFLAGS和CXXFLAGS環境變量,你能夠在bash中執行以下命令(也能夠寫進.bashrc以成爲默認值):
export CFLAGS="-O3 -march=<cpu類型>" && CXXFLAGS=$CFLAGS
這是一個確保可以在幾乎全部平臺上都能正常工做的最小設置。

"-march"選項表示爲特定的cpu類型編譯二進制代碼(不能在更低級別的cpu上運行),
Intel一般是:pentium2, pentium3, pentium3m, pentium4, pentium4m, pentium-m, prescott, nocona
說明:pentium3m/pentium4m是筆記本用的移動P3/P4;pentium-m是迅馳I/II代筆記本的cpu;
prescott是帶SSE3的P4(以滾燙到能夠煎雞蛋而聞名);nocona則是最新的帶有EMT64(64位)的P4(一樣能夠煎雞蛋)
AMD一般是:k6, k6-2, k6-3, athlon, athlon-tbird, athlon-xp, athlon-mp, opteron, athlon64, athlon-fx
用AMD的通常都是DIYer,就沒必要解釋了吧。

若是編譯時沒有抱怨"segmentation fault, core dumped",那麼你設定的"-O"優化參數通常就沒什麼問題。
不然請下降優化級別("-O3" -> "-O2" -> "-O1" -> 取消)。
我的意見:服務器使用"-O2"就能夠了,它是最安全的優化參數(集合);桌面可使用"-O3" ;
不鼓勵使用過多的自定義優化選項,其實他們之間沒什麼明顯的速度差別(有時"-O3"反而更慢)。

編譯器對硬件很是敏感,特別是在使用較高的優化級別的時候,一丁點的內存錯誤均可能致使致命的失敗。
因此在編譯時請千萬不要超頻你的電腦(我編譯關鍵程序時老是先降頻然的)。

注意:選項的順序很重要,若是有兩個選項互相沖突,則之後一個爲準。
好比"-O3"將打開-finline-functions選項,可是能夠用"-O3 -fno-inline-functions"既使用-O3的功能又關閉函數內嵌功能。

更多的優化選項請參見:
http://gcc.gnu.org/onlinedocs/gcc-3.4.4/gcc/Optimize-Options.html
http://gcc.gnu.org/onlinedocs/gcc-3.4.4/gcc/i386-and-x86_002d64-Options.html
http://gcc.gnu.org/onlinedocs/gcc-4.0.2/gcc/Optimize-Options.html
http://gcc.gnu.org/onlinedocs/gcc-4.0.2/gcc/i386-and-x86_002d64-Options.html
全部GCC選項完整列表參見:
http://gcc.gnu.org/onlinedocs/gcc-3.4.4/gcc/Option-Summary.html
http://gcc.gnu.org/onlinedocs/gcc-4.0.2/gcc/Option-Summary.html

有兩個頁面值的參考:
(對於gentoo-1.4)比較安全的優化選項
http://www.freehackers.org/gentoo/gccflags/flag_gcc3.html
(對於gentoo-1.4)進階優化選項
http://www.freehackers.org/gentoo/gccflags/flag_gcc3opt.html

*******************************************************************

哦,忘了說一聲,"-O2"已經啓用絕大多數安全的優化選項了,因此其實你沒必要對那一堆選項發愁。
先說說"-O3"在"-O2"基礎上增長的幾項,你能夠按需添加(還算比較安全):
[gcc-3.4.4]
-finline-functions 容許編譯器選擇某些簡單的函數在其被調用處展開
-fweb 爲每一個web結構體分配一個僞寄存器
-frename-registers 試圖驅除代碼中的假依賴關係,這個選項對具備大量寄存器的機器頗有效。
[gcc-4.0.2]
-finline-functions 說明如上
-funswitch-loops 將循環體中不改變值的變量移動到循環體以外
-fgcse-after-reload **不太明白它的含義**[哪位大峽知道給小弟講解一下,先行謝過
]

說完"-O3"再說說在嵌入式系統上經常使用的"-Os"選項,這個選項其實也很重要,它的含義是對生成的二進制代碼進行尺寸上的優化,它打開了全部"-O2"打開的選項,所以一般認爲的"-Os"生成的二進制代碼執行效率低的潛在乎識是錯誤的!固然該選項與"-O2"的不一樣之處在於它在"-O2"的基礎上禁止了全部爲了對齊而插入的空間,也就是將全部"-falign-*"系列的選項禁用了。這種禁用到底是否必定下降了代碼的執行效率,依據程序的不一樣而不一樣,聽說某些狀況下"-Os"的效率比"-O3"還要高14%!請兄弟們在實踐中本身摸索吧...


---------------------------------------------

下面選擇我認爲比較重要的幾項簡單介紹一下[gcc-3.4.4],GCC選項完整列表太長了!精力有限。
[注意]這裏列出的都是非默認的選項,你只須要添加你所須要的選項便可

-w 禁止輸出警告消息

-Werror 將全部警告轉換爲錯誤

-Wall 顯示全部的警告消息

-v 顯示編譯程序的當前版本號

-V<version> 指定gcc將要運行的版本。只有在安裝了多個版本gcc的機器上纔有效。

-ansi 按照ANSI標準編譯程序,但並不限制與標準並不衝突的GNU擴展(通常不用該選項)

-pedantic 若是要限制代碼必須嚴格符合ISO標準,就在"-ansi"的基礎上同時啓用這個選項(不多使用)

-std=<name> 指定C語言的標準(c89,c99,gnu89),該選項禁止了GNU C的擴展關鍵字asm,typeof,inline (通常不用該選項)

-static 鏈接器將忽略動態鏈接庫,同時經過將靜態目標文件直接包含到結果目標文件完成對全部引用的解析。

-shared 鏈接器將生成共享目標代碼,該共享庫可在運行時動態鏈接到程序造成完整的可執行體。
若是使用gcc命令建立共享庫做爲其輸出,該選項能夠防止鏈接器將缺失main()方法視爲錯誤。
爲了能夠正確的工做,應該一致的使用選項"-fpic"以及目標平臺選項編譯構成同一個庫的全部共享目標模塊。

-shared-libgcc 該選項指定使用共享版本的libgcc,在沒有共享版本的libgcc的機器上該選項無效。

-specs=<filename> gcc驅動程序讀取該文件以肯定哪些選項應該傳遞給那些子進程。
該選項能夠經過指定配置文件來覆蓋默認配置,指定的文件將在默認配置文件讀取後進行處理以修改默認配置。

-pipe 使用管道而不是臨時文件一個階段到另外一個階段交換輸出的方式,能夠加快編譯速度。建議使用。

-o <filename> 指定輸出文件,對各類輸出皆有效。因爲只能指定一個文件,因此在產生多個輸出文件的狀況下不要使用該選項。

--help 顯示gcc的命令行選項列表;與"-v"一塊兒使用時還將顯示gcc調用的各個進程所接受的選項。

--target-help 顯示目標機器相關的命令行選項列表

-b<machine> 指示須要編譯程序的目標機器;默認爲編譯程序所運行的目標機編譯代碼。
目標機經過指定包含編譯程序的目錄來肯定,一般爲/usr/local/lib/gcc-lib/<machine>/<version>

-B<lib-prefix> 指定庫文件的位置,包括編譯程序的文件、執行程序和數據文件,若是須要運行子程序(如cpp,as,ld)就會用該前綴來定位。
這個前綴能夠是用冒號分割的多個路徑,環境變量GCC_EXEC_PREFIX和這個選項有相同的效果。

-I<dir> 指定搜索系統頭文件的目錄,能夠重複使用多個該選項指定多個目錄。

-dumpmachine 顯示該程序的目標機名字,不作其餘任何動做

-dumpspecs 顯示構件編譯程序的規範信息,包括用來編譯、彙編和鏈接gcc編譯程序自身用到的全部選項,不作其餘任何動做。

-dumpversion 顯示編譯程序自身的版本號,不作其餘任何動做

-falign-functions=N 將全部函數的起始地址在N(N=1,2,4,8,16...)的邊界上對齊,默認爲機器自身的默認值,指定爲1表示禁止對齊。

-falign-jumps=N 將分支目標在N(N=1,2,4,8,16...)的邊界上對齊,默認爲機器自身的默認值,指定爲1表示禁止對齊。
-fno-align-labels 建議使用它,以保證不和-falign-jumps("-O2"默認啓用的選項)衝突

-fno-align-loops 建議使用它,以確保不會在分支目標前插入多餘的空指令。

-fbranch-probabilities 在使用"-fprofile-arcs"選項編譯程序並執行它來建立包含每一個代碼塊執行次數的文件以後,程序能夠利用這一選項再次編譯,
文件中所產生的信息將被用來優化那些常常發生的分支代碼。若是沒有這些信息,gcc將猜想那一分支可能常常發生並進行優化。
這類優化信息將會存放在一個以源文件爲名字的並以".da"爲後綴的文件中。

-fno-guess-branch-probability 默認狀況下gcc將使用隨機模型進行猜想哪一個分支更可能被常常執行,並以此來優化代碼,該選項關閉它。

-fprofile-arcs 在使用這一選項編譯程序並運行它以建立包含每一個代碼塊的執行次數的文件後,程序能夠再次使用"-fbranch-probabilities"編譯,
文件中的信息能夠用來優化那些常常選取的分支。若是沒有這些信息,gcc將猜想哪一個分支將被常常運行以進行優化。
這類優化信息將會存放在一個以源文件爲名字的並以".da"爲後綴的文件中。

-fforce-addr 必須將地址複製到寄存器中才能對他們進行運算。因爲所需地址一般在前面已經加載到寄存器中了,因此這個選項能夠改進代碼。
-fforce-mem 必須將數值複製到寄存器中才能對他們進行運算。因爲所需數值一般在前面已經加載到寄存器中了,因此這個選項能夠改進代碼。

-ffreestanding 所編譯的程序可以在獨立的環境中運行,該環境能夠沒有標準庫,並且能夠不從main()函數開始運行。
該選項將設置"-fno-builtin",且等同於"-fno-hosted"。
-fhosted 所編譯的程序須要運行在宿主環境中,其中須要有完整的標準庫,並且main()函數具備int型的返回值。
-fno-builtin 除非利用"__builtin_"進行引用,不然不識別全部內建函數。

-fmerge-all-constants 試圖將跨編譯單元的全部常量值和數組合並在一個副本中。可是標準C/C++要求每一個變量都必須有不一樣的存儲位置。

-fmove-all-movables 將全部不變的表達式移動到循環體以外,這種作法的好壞取決於源代碼中的循環結構。

-fnon-call-exceptions 產生的代碼可供陷阱指令(如非法浮點運算和非法內存尋址)拋出異常,須要相關平臺的運行時支持,並不廣泛有效。

-fomit-frame-pointer 對於不須要棧指針的函數就不在寄存器中保存指針,所以能夠忽略存儲和檢索地址的代碼,並將寄存器用於普通用途。
全部"-O"級別都打開着一選項,但僅在調試器能夠不依靠棧指針運行時纔有效。建議不須要調試的狀況下顯式的設置它。

-fno-optional-diags 禁止輸出診斷消息,C++標準並不須要這些消息。
-fpermissive 將代碼中與標準不符合的診斷消息做爲警告而不是錯誤輸出。

-fpic 生成可用於共享庫的位置獨立代碼(PIC),全部的內存尋址均經過全局偏移表(GOT)完成。該選項並不是在全部的機器上都有效。
要肯定一個地址,須要將代碼自身的內存位置做爲表中的一項插入。該選項能夠產生在共享庫中存放並從中加載的目標模塊。

-fprefetch-loop-arrays 生成數組預讀取指令,對於使用巨大數組的程序能夠加快代碼執行速度,適合數據庫相關的大型軟件等。

-freg-struct-return 生成用寄存器返回短結構的代碼,若是寄存器沒法榮納將使用內存。

-fstack-check 爲防止程序棧溢出而進行必要的檢測,在多線程環境中運行時纔可能須要它。

-ftime-report 編譯完成後顯示編譯耗時的統計信息

-funroll-loops 若是在編譯時能夠肯定迭代的次數很是少並且循環中的指令也很是少,可使用該選項進行循環展開,以驅除循環和複製指令。

-finline-limit=<size> 對僞指令數超過<size>的函數,編譯程序將不進行展開,默認爲600

--param <name>=<value> gcc內部存在一些優化代碼程度的限制,調整這些限制就是調整整個優化全局。下面列出了參數的名字和對應的解釋:
名字 解釋
max-delay-slot-insn-search 較大的數目能夠生成更優化的代碼,可是會下降編譯速度,默認爲100
max-delay-slot-live-search 較大的數目能夠生成更優化的代碼,可是會下降編譯速度,默認爲333
max-gcse-memory 執行GCSE優化使用的最大內存量,過小將使該優化沒法進行,默認爲50M
max-gcse-passes 執行GCSE優化的最大迭代次數,默認爲1

*******************************************************************
說完了命令行選項,下面來講說與硬件體系結構(主要是cpu)相關的設置[僅針對i386/x86_64]

最大名鼎鼎的"-march"上面已經說過了,下面講講別的(僅挑些實用的)

-mfpmath=sse P3和athlon-tbird以上級別的cpu支持

-masm=<dialect> 使用指定的dialect輸出彙編語言指令,可使用"intel"或"att";默認爲"att"

-mieee-fp 指定編譯器使用IEEE浮點比較,這樣將會正確的處理比較結果爲無序的狀況。

-malign-double 將double, long double, long long對齊於雙字節邊界上;有助於生成更高速的代碼,可是程序的尺寸會變大。

-m128bit-long-double 指定long double爲128位,pentium以上的cpu更喜歡這種標準。

-mregparm=N 指定用於傳遞整數參數的寄存器數目(默認不使用寄存器)。0<=N<=3 ;注意:當N>0時你必須使用同一參數從新構建全部的模塊,包括全部的庫。

-mmmx
-mno-mmx
-msse
-mno-sse
-msse2
-mno-sse2
-msse3
-mno-sse3
-m3dnow
-mno-3dnow
上面的這些不用解釋了,一看就明白,根據本身的CPU決定吧

-maccumulate-outgoing-args 指定在函數引導段中計算輸出參數所需最大空間,這在大部分現代cpu中是較快的方法;缺點是會增長代碼尺寸。

-mthreads 支持Mingw32的線程安全異常處理。對於依賴於線程安全異常處理的程序,必須啓用這個選項。
使用這個選項時會定義"-D_MT",它將包含使用選項"-lmingwthrd"鏈接的一個特殊的線程輔助庫,用於爲每一個線程清理異常處理數據。

-minline-all-stringops 嵌入全部的字符串操做。能夠提升字符串操做的性能,可是會增長代碼尺寸。

-momit-leaf-frame-pointer 不爲葉子函數在寄存器中保存棧指針,這樣能夠節省寄存器,可是將會是調試變的困難。參見"-fomit-frame-pointer"。

下面這幾個僅用於x86_64環境:

-m64 生成專門運行於64位環境的代碼,不能運行於32位環境

-mcmodel=small [默認值]程序和它的符號必須位於2GB如下的地址空間。指針仍然是64位。程序能夠靜態鏈接也能夠動態鏈接。
-mcmodel=kernel 內核運行於2GB地址空間以外。在編譯linux內核時必須使用該選項!
-mcmodel=medium 程序必須位於2GB如下的地址空間,可是它的符號能夠位於任何地址空間。程序能夠靜態鏈接也能夠動態鏈接。
注意:共享庫不能使用這個選項編譯!
-mcmodel=large 對地址空間沒有任何限制,這個選項的功能目前還沒有實現。

==============================
既然已經講了這麼多了索性再講講gcc使用的一些環境變量
除了大名鼎鼎的CFLAGS和CXXFLAGS之外(實際上是Autoconf的環境變量),再挑幾個說說:
全部的PATH類環境變量(除LD_RUN_PATH外)都是用冒號分割的目錄列表。

C_INCLUDE_PATH 編譯C程序時使用的環境變量,用於查找頭文件。

CPLUS_INCLUDE_PATH 編譯C++程序時使用的環境變量,用於查找頭文件。

OBJC_INCLUDE_PATH 編譯Obj-C程序時使用的環境變量,用於查找頭文件。

CPATH 編譯C/C++/Obj-C程序時使用的環境變量,用於查找頭文件。

COMPILER_PATH 若是沒有用GCC_EXEC_PREFIX定位子程序,編譯程序將會在此查找它的子程序。

LIBRARY_PATH 鏈接程序將在這些目錄中尋找特殊的鏈接程序文件。

LD_LIBRARY_PATH 該環境變量不影響編譯程序,可是程序運行的時候會有影響:程序會查找該目錄列表以尋找共享庫。
當不可以在編譯程序的目錄中找到共享庫的時候,執行程序必須設置該環境變量。

LD_RUN_PATH 該環境變量不影響編譯程序,可是程序運行的時候會有影響:它在運行時指出了文件的名字,運行的程序能夠由此獲得它的符號名字和地址。
因爲地址不會從新載入,於是可能符號應用其餘文件中的絕對地址。這個和ld工具使用的"-R"選項徹底同樣。

GCC_EXEC_PREFIX 編譯程序執行全部子程序的名字的前綴,默認值是"<prefix>/lib/gcc-lib/",
其中的<prefix>是安裝時configure腳本指定的前綴。

LANG 指定編譯程序使用的字符集,可用於建立寬字符文件、串文字、註釋;默認爲英文。[目前只支持日文"C-JIS,C-SJIS,C-EUCJP",不支持中文]

LC_ALL 指定多字節字符的字符分類,主要用於肯定字符串的字符邊界以及編譯程序使用何種語言發出診斷消息;默認設置與LANG相同。
中文相關的幾項:"zh_CN.GB2312 , zh_CN.GB18030 , zh_CN.GBK , zh_CN.UTF-8 , zh_TW.BIG5"

TMPDIR 編譯程序存放臨時工做文件的臨時目錄,這些臨時文件一般在編譯結束時被刪除。
相關文章
相關標籤/搜索