深刻理解C語言

Dennis Ritchie  過世了,他發明了C語言,一個影響深遠並完全改變世界的計算機語言。一門經歷40多年的到今天還長盛不衰的語言,今天不少語言都受到C的影響,C++,Java,C#,Perl, PHP, Javascript, 等等。可是,你對C瞭解嗎?相信你看過本站的《C語言的謎題》還有《誰說C語言很簡單?》,這裏,我再寫一篇關於深刻理解C語言的文章,一方面是緬懷Dennis,另外一方面是告訴你們應該如何學好一門語言。(順便註明一下,下面的一些例子來源於這個slideshtml

首先,咱們先來看下面這個經典的代碼:程序員

1
2
3
4
5
int main()
{
     int a = 42;
     printf (「%d\n」, a);
}

從這段代碼裏你看到了什麼問題?咱們都知道,這段程序裏少了一個#include <stdio.h> 還少了一個return 0;的返回語句。shell

不過,讓咱們來深刻的學習一下,數組

  • 這段代碼在C++下沒法編譯,由於C++須要明確聲明函數
  • 這段代碼在C的編譯器下會編譯經過,由於在編譯期,編譯器會生成一個printf的函數定義,並生成.o文件,連接時,會找到標準的連接庫,因此能編譯經過。
  •  可是,你知道這段程序的退出碼嗎?在ANSI-C下,退出碼是一些未定義的垃圾數。但在C89下,退出碼是3,由於其取了printf的返回值。爲何printf函數返回3呢?由於其輸出了’4′, ’2′,’\n’ 三個字符。而在C99下,其會返回0,也就是成功地運行了這段程序。你可使用gcc的 -std=c89或是-std=c99來編譯上面的程序看結果。
  • 另外,咱們還要注意main(),在C標準下,若是一個函數不要參數,應該聲明成main(void),而main()其實至關於main(…),也就是說其能夠有任意多的參數。

咱們再來看一段代碼:ide

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#include <stdio.h>
void f( void )
{
    static int a = 3;
    static int b;
    int c;
    ++a; ++b; ++c;
    printf ( "a=%d\n" , a);
    printf ( "b=%d\n" , b);
    printf ( "c=%d\n" , c);
}
int main( void )
{
    f();
    f();
    f();
}

這個程序會輸出什麼?函數

  • 我相信你對a的輸出至關有把握,就分別是4,5,6,由於那個靜態變量。
  • 對於c呢,你應該也比較確定,那是一堆亂數。
  • 可是你可能不知道b的輸出會是什麼?答案是1,2,3。爲何和c不同呢?由於,若是要初始化,每次調用函數裏,編譯器都要初始化函數棧空間,這太費性能了。可是c的編譯器會初始化靜態變量爲0,由於這只是在啓動程序時的動做。
  • 全局變量一樣會被初始化。

說到全局變量,你知道 靜態全局變量和通常全局變量的差異嗎?是的,對於static 的全局變量,其對連接器不能夠見,也就是說,這個變量只能在當前文件中使用。性能

咱們再來看一個例子:學習

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#include <stdio.h>
void foo( void )
{
     int a;
     printf ( "%d\n" , a);
}
void bar( void )
{
     int a = 42;
}
int main( void )
{
     bar();
     foo();
}

你知道這段代碼會輸出什麼嗎?A) 一個隨機值,B) 42。A 和 B都對(在「在函數外存取局部變量的一個比喻」文中的最後給過這個例子),不過,你知道爲何嗎?優化

  • 若是你使用通常的編譯,會輸出42,由於咱們的編譯器優化了函數的調用棧(重用了以前的棧),爲的是更快,這沒有什麼反作用。反正你不初始化,他就是隨機值,既然是隨機值,什麼都無所謂。
  • 可是,若是你的編譯打開了代碼優化的開關,-O,這意味着,foo()函數的代碼會被優化成main()裏的一個inline函數,也就是說沒有函數調用,就像宏定義同樣。因而你會看到一個隨機的垃圾數。

下面,咱們再來看一個示例:spa

1
2
3
4
5
6
7
8
#include <stdio.h>
int b( void ) { printf (「3」); return 3; }
int c( void ) { printf (「4」); return 4; }
int main( void )
{
    int a = b() + c();
    printf (「%d\n」, a);
}

這段程序會輸出什麼?,你會說是,3,4,7。可是我想告訴你,這也有可能輸出,4,3,7。爲何呢? 這是由於,在C/C++中,表達的評估次序是沒有標準定義的。編譯器能夠正着來,也能夠反着來,因此,不一樣的編譯器會有不一樣的輸出。你知道這個特性之後,你就知道這樣的程序是沒有可移植性的。

咱們再來看看下面的這堆代碼,他們分別輸出什麼呢?

示例一
1
int a=41; a++; printf ( "%d\n" , a);
示例二
1
int a=41; a++ & printf ( "%d\n" , a);
示例三
1
int a=41; a++ && printf ( "%d\n" , a);
示例四
1
int a=41; if (a++ < 42) printf ( "%d\n" , a);
示例五
1
int a=41; a = a++; printf ( "%d\n" , a);

只有示例一,示例三,示例四輸出42,而示例二和五的行爲則是未定義的。關於這種未定義的東西是由於Sequence Points的影響(Sequence Points是一種規則,也就是程序執行的序列點,在兩點之間的表達式只能對變量有一次修改),由於這會讓編譯器不知道在一個表達式順列上如何存取變量的值。好比a = a++,a + a++,不過,在C中,這樣的狀況不多。

下面,再看一段代碼:(假設int爲4字節,char爲1字節)

1
2
3
4
struct X { int a; char b; int c; };
printf ( "%d," , sizeof ( struct X));
struct Y { int a; char b; int c; char d};
printf ( "%d\n" , sizeof ( struct Y));

這個代碼會輸出什麼?

a) 9,10
b)12, 12
c)12, 16

答案是C,我想,你必定知道字節對齊,是向4的倍數對齊。

  • 可是,你知道爲何要字節對齊嗎?仍是由於性能。由於這些東西都在內存裏,若是不對齊的話,咱們的編譯器就要向內存一個字節一個字節的取,這樣一來,struct X,就須要取9次,太浪費性能了,而若是我一次取4個字節,那麼我三次就搞定了。因此,這是爲了性能的緣由。
  • 可是,爲何struct Y不向12 對齊,卻要向16對齊,由於char d; 被加在了最後,當編譯器計算一個結構體的尺寸時,是邊計算,邊對齊的。也就是說,編譯器先看到了int,很好,4字節,而後是 char,一個字節,然後面的int又不能填上還剩的3個字節,不爽,把char b對齊成4,因而計算到d時,就是13 個字節,因而就是16啦。可是若是換一下d和c的聲明位置,就是12了。

另外,再提一下,上述程序的printf中的%d並很差,由於,在64位下,sizeof的size_t是unsigned long,而32位下是 unsigned int,因此,C99引入了一個專門給size_t用的%zu。這點須要注意。在64位平臺下,C/C++ 的編譯須要注意不少事。你能夠參看《64位平臺C/C++開發注意事項》。

下面,咱們再說說編譯器的Warning,請看代碼:

1
2
3
4
5
6
#include <stdio.h>
int main( void )
{
     int a;
     printf ( "%d\n" , a);
}

考慮下面兩種編譯代碼的方式 :

  • cc -Wall a.c
  • cc -Wall -O a.c

前一種是不會編譯出a未初化的警告信息的,而只有在-O的狀況下,纔會有未初始化的警告信息。這點就是爲何咱們在makefile裏的CFLAGS上老是須要-Wall和 -O。

最後,咱們再來看一個指針問題,你看下面的代碼:

1
2
3
4
5
6
7
8
9
#include <stdio.h>
int main( void )
{
     int a[5];
     printf ( "%x\n" , a);
     printf ( "%x\n" , a+1);
     printf ( "%x\n" , &a);
     printf ( "%x\n" , &a+1);
}

假如咱們的a的地址是:0Xbfe2e100, 並且是32位機,那麼這個程序會輸出什麼?

  • 第一條printf語句應該沒有問題,就是 bfe2e100
  • 第二條printf語句你可能會覺得是bfe2e101。那就錯了,a+1,編譯器會編譯成 a+ 1*sizeof(int),int在32位下是4字節,因此是加4,也就是bfe2e104
  • 第三條printf語句多是你最頭疼的,咱們怎麼知道a的地址?我不知道嗎?可不就是bfe2e100。那豈不成了a==&a啦?這怎麼可能?本身存本身的?也許不少人會以爲指針和數組是一回事,那麼你就錯了。若是是 int *a,那麼沒有問題,由於a是指針,因此 &a 是指針的地址,a 和 &a不同。可是這是數組啊a[],因此&a實際上是被編譯成了 &a[0]。
  • 第四條printf語句就很天然了,就是bfe2e104。仍是不對,由於是&a是數組,被當作int(*)[5],因此sizeof(a)是5,也就是5*sizeof(int),也就是bfe2e114。

看過這麼多,你可能會以爲C語言設計得真扯淡啊。不過我要告訴下面幾點Dennis當初設計C語言的初衷:

1)相信程序員,不阻止程序員作他們想作的事。

2)保持語言的簡潔,以及概念上的簡單。

3)保證性能,就算犧牲移植性。

今天不少語言進化得很高級了,語法也愈來愈複雜和強大,可是C語言依然光芒四射,Dennis離世了,可是C語言的這些設計思路將永遠不朽。

相關文章
相關標籤/搜索