gcc編譯過程

時間 2019-11-20

標籤 gcc 編譯過程欄目 GCC 简体版

原文原文鏈接

gcc的編譯流程分爲四個步驟，分別爲：
・預處理（Pre-Processing）
・編譯（Compiling）
・彙編（Assembling）
・連接（Linking）
以hello.c爲例子，在這四個步驟中能夠設置選項分別生成hello.i, hello.s, hello.o以及最終的hello文件：
hello.c : 最初的源代碼文件；
hello.i : 通過編譯預處理的源代碼；
hello.s : 彙編處理後的彙編代碼；
hello.o : 編譯後的目標文件，即含有最終編譯出的機器碼，但它裏面所引用的其餘文件中函數的內存位置還沒有定義。
hello / a.out : 最終的可執行文件
(還有.a(靜態庫文件), .so(動態庫文件), .s(彙編源文件)留待之後討論)

下面就具體來查看一下gcc是如何完成四個步驟的。

hello.c源代碼

#include<stdio.h>
int main()
{
printf("Hello World!\n");
return 0;
}

（1）預處理階段

在該階段，編譯器將上述代碼中的stdio.h編譯進來，而且 用戶能夠使用gcc的選項」-E」進行查看，該選項的做用是讓gcc在預處理結束後中止編譯過程。

《深刻理解計算機系統》中是這麼說的：
預處理器（cpp）根據以字符#開頭的命令（directives），修改原始的C程序。如 hello.c中#include <stdio.h>指令告訴預處理器讀系統頭文件stdio.h的內容，並把它直接插入到程序文本中去。結果就獲得另一個C程序，一般是以.i做爲文件擴展名的。

注意：
Gcc指令的通常格式爲：Gcc [選項] 要編譯的文件 [選項] [目標文件]
其中，目標文件可缺省，Gcc默認生成可執行的文件名爲：編譯文件.out

[gan @localhost gcc]# gcc �E hello.c �o hello.i
選項」-o」是指目標文件， 」.i」文件爲已通過預處理的C原始程序。如下列出了hello.i文件的部份內容：

typedef int (*__gconv_trans_fct) (struct __gconv_step *,
struct __gconv_step_data *, void *,
__const unsigned char *,
__const unsigned char **,
__const unsigned char *, unsigned char **,
size_t *);

…

# 2 "hello.c" 2

int main()
{
printf("Hello World!\n");
return 0;
}

因而可知，gcc確實進行了預處理，它把」stdio.h」的內容插入到hello.i文件中。

（2）編譯階段

接下來進行的是編譯階段，在這個階段中，Gcc首先要檢查代碼的規範性、是否有語法錯誤等，以肯定代碼的實際要作的工做，在檢查無誤後，Gcc把代碼翻譯成彙編語言。用戶能夠使用」-S」選項來進行查看，該選項只進行編譯而不進行彙編，生成彙編代碼。彙編語言是很是有用的，它爲不一樣高級語言不一樣編譯器提供了通用的語言。如：C編譯器和Fortran編譯器產生的輸出文件用的都是同樣的彙編語言。

[gan @localhost gcc]# gcc �S hello.i �o hello.s
如下列出了hello.s的內容，可見Gcc已經將其轉化爲彙編了，感興趣的讀者能夠分析一下這一行簡單的C語言小程序是如何用匯編代碼實現的。
.file "hello.c"
.section .rodata
.align 4

.LC0:
.string "Hello World!"
.text
.globl main
.type main, @function
main:
pushl %ebp
movl %esp, %ebp
subl $8, %esp
andl $-16, %esp
movl $0, %eax

addl $15, %eax
addl $15, %eax
shrl $4, %eax
sall $4, %eax
subl %eax, %esp
subl $12, %esp
pushl $.LC0

call puts
addl $16, %esp
movl $0, %eax
leave
ret
.size main, .-main
.ident "GCC: (GNU) 4.0.0 20050519 (Red Hat 4.0.0-8)"
.section .note.GNU-stack,"",@progbits

（3）彙編階段

彙編階段是把編譯階段生成的」.s」文件轉成目標文件，讀者在此可以使用選項」-c」就可看到彙編代碼已轉化爲」.o」的二進制目標代碼了。以下所示：
[gan @localhost gcc]# gcc �c hello.s �o hello.o

（4）連接階段

在成功編譯以後，就進入了連接階段。在這裏涉及到一個重要的概念：函數庫。

在這個源程序中並無定義」printf」的函數實現，且在預編譯中包含進的」stdio.h」中也只有該函數的聲明，而沒有定義函數的實現，那麼，是在哪裏實現」printf」函數的呢？最後的答案是：系統把這些函數實現都被作到名爲libc.so.6的庫文件中去了，在沒有特別指定時，gcc 會到系統默認的搜索路徑 」/usr/lib」下進行查找，也就是連接到libc.so.6庫函數中去，這樣就能實現函數」printf」了，而這也就是連接的做用。

函數庫通常分爲靜態庫和動態庫兩種。靜態庫是指編譯連接時，把庫文件的代碼所有加入到可執行文件中，所以生成的文件比較大，但在運行時也就再也不須要庫文件了。 其後綴名通常爲」.a」。動態庫與之相反，在編譯連接時並無把庫文件的代碼加入到可執行文件中，而是在程序執行時由運行時連接文件加載庫，這樣能夠節省系統的開銷。動態庫通常後綴名爲」.so」，如前面所述的libc.so.6就是動態庫。gcc在編譯時默認使用動態庫。
（Linux下動態庫文件的擴展名爲".so"（Shared Object）。按照約定，全部動態庫文件名的形式是libname.so（可能在名字中加入版本號）。這樣，線程函數庫被稱做 libthread.so。靜態庫的文件名形式是libname.a。 共享archive的文件名形式是libname.sa。共享archive只是一種過渡形式，幫助人們從靜態庫轉變到動態庫。）
完成了連接以後，gcc就能夠生成可執行文件，以下所示。

[gan@localhost gcc]# gcc hello.o �o hello

運行該可執行文件，出現正確的結果以下。 [root@localhost Gcc]# ./hello Hello World!

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。