深刻理解C語言

時間 2019-11-13

標籤深刻理解 c語言简体版

原文原文鏈接

Dennis Ritchie 過世了，他發明了C語言，一個影響深遠並完全改變世界的計算機語言。一門經歷40多年的到今天還長盛不衰的語言，今天不少語言都受到C的影響，C++，Java，C#，Perl， PHP， Javascript，等等。可是，你對C瞭解嗎？相信你看過本站的《C語言的謎題》還有《誰說C語言很簡單？》，這裏，我再寫一篇關於深刻理解C語言的文章，一方面是緬懷Dennis，另外一方面是告訴你們應該如何學好一門語言。（順便註明一下，下面的一些例子來源於這個slides）html

首先，咱們先來看下面這個經典的代碼：程序員

 
        1 
      
        2 
      
        3 
      
        4 
      
        5 
      
        int 
        main() 
       
        { 
       
        int 
        a = 42; 
       
        printf 
        (「%d\n」, a); 
       
        }

從這段代碼裏你看到了什麼問題？咱們都知道，這段程序裏少了一個#include <stdio.h> 還少了一個return 0;的返回語句。shell

不過，讓咱們來深刻的學習一下，數組

這段代碼在C++下沒法編譯，由於C++須要明確聲明函數
這段代碼在C的編譯器下會編譯經過，由於在編譯期，編譯器會生成一個printf的函數定義，並生成.o文件，連接時，會找到標準的連接庫，因此能編譯經過。
可是，你知道這段程序的退出碼嗎？在ANSI-C下，退出碼是一些未定義的垃圾數。但在C89下，退出碼是3，由於其取了printf的返回值。爲何printf函數返回3呢？由於其輸出了’4′, ’2′,’\n’ 三個字符。而在C99下，其會返回0，也就是成功地運行了這段程序。你可使用gcc的 -std=c89或是-std=c99來編譯上面的程序看結果。
另外，咱們還要注意main()，在C標準下，若是一個函數不要參數，應該聲明成main(void)，而main()其實至關於main(…)，也就是說其能夠有任意多的參數。

咱們再來看一段代碼：ide

 
        1 
      
        2 
      
        3 
      
        4 
      
        5 
      
        6 
      
        7 
      
        8 
      
        9 
      
        10 
      
        11 
      
        12 
      
        13 
      
        14 
      
        15 
      
        16 
      
        17 
      
        #include <stdio.h> 
       
        void 
        f( 
        void 
        ) 
       
        { 
       
        static 
        int 
        a = 3; 
       
        static 
        int 
        b; 
       
        int 
        c; 
       
        ++a; ++b; ++c; 
       
        printf 
        ( 
        "a=%d\n" 
        , a); 
       
        printf 
        ( 
        "b=%d\n" 
        , b); 
       
        printf 
        ( 
        "c=%d\n" 
        , c); 
       
        } 
       
        int 
        main( 
        void 
        ) 
       
        { 
       
        f(); 
       
        f(); 
       
        f(); 
       
        }

這個程序會輸出什麼？函數

我相信你對a的輸出至關有把握，就分別是4，5，6，由於那個靜態變量。
對於c呢，你應該也比較確定，那是一堆亂數。
可是你可能不知道b的輸出會是什麼？答案是1，2，3。爲何和c不同呢？由於，若是要初始化，每次調用函數裏，編譯器都要初始化函數棧空間，這太費性能了。可是c的編譯器會初始化靜態變量爲0，由於這只是在啓動程序時的動做。
全局變量一樣會被初始化。

說到全局變量，你知道靜態全局變量和通常全局變量的差異嗎？是的，對於static 的全局變量，其對連接器不能夠見，也就是說，這個變量只能在當前文件中使用。性能

咱們再來看一個例子：學習

 
        1 
      
        2 
      
        3 
      
        4 
      
        5 
      
        6 
      
        7 
      
        8 
      
        9 
      
        10 
      
        11 
      
        12 
      
        13 
      
        14 
      
        15 
      
        #include <stdio.h> 
       
        void 
        foo( 
        void 
        ) 
       
        { 
       
        int 
        a; 
       
        printf 
        ( 
        "%d\n" 
        , a); 
       
        } 
       
        void 
        bar( 
        void 
        ) 
       
        { 
       
        int 
        a = 42; 
       
        } 
       
        int 
        main( 
        void 
        ) 
       
        { 
       
        bar(); 
       
        foo(); 
       
        }

你知道這段代碼會輸出什麼嗎？A) 一個隨機值，B) 42。A 和 B都對（在「在函數外存取局部變量的一個比喻」文中的最後給過這個例子），不過，你知道爲何嗎？優化

若是你使用通常的編譯，會輸出42，由於咱們的編譯器優化了函數的調用棧（重用了以前的棧），爲的是更快，這沒有什麼反作用。反正你不初始化，他就是隨機值，既然是隨機值，什麼都無所謂。
可是，若是你的編譯打開了代碼優化的開關，-O，這意味着，foo()函數的代碼會被優化成main()裏的一個inline函數，也就是說沒有函數調用，就像宏定義同樣。因而你會看到一個隨機的垃圾數。

下面，咱們再來看一個示例：spa

 
        1 
      
        2 
      
        3 
      
        4 
      
        5 
      
        6 
      
        7 
      
        8 
      
        #include <stdio.h> 
       
        int 
        b( 
        void 
        ) {  
        printf 
        (「3」);  
        return 
        3; } 
       
        int 
        c( 
        void 
        ) {  
        printf 
        (「4」);  
        return 
        4; } 
       
        int 
        main( 
        void 
        ) 
       
        { 
       
        int 
        a = b() + c(); 
       
        printf 
        (「%d\n」, a); 
       
        }

這段程序會輸出什麼？，你會說是，3，4，7。可是我想告訴你，這也有可能輸出，4，3，7。爲何呢？這是由於，在C/C++中，表達的評估次序是沒有標準定義的。編譯器能夠正着來，也能夠反着來，因此，不一樣的編譯器會有不一樣的輸出。你知道這個特性之後，你就知道這樣的程序是沒有可移植性的。

咱們再來看看下面的這堆代碼，他們分別輸出什麼呢？

 
    示例一 
    
        1 
      
        int 
        a=41; a++;  
        printf 
        ( 
        "%d\n" 
        , a);

 
    示例二 
    
        1 
      
        int 
        a=41; a++ &  
        printf 
        ( 
        "%d\n" 
        , a);

 
    示例三 
    
        1 
      
        int 
        a=41; a++ &&  
        printf 
        ( 
        "%d\n" 
        , a);

 
    示例四 
    
        1 
      
        int 
        a=41;  
        if 
        (a++ < 42)  
        printf 
        ( 
        "%d\n" 
        , a);

 
    示例五 
    
        1 
      
        int 
        a=41; a = a++;  
        printf 
        ( 
        "%d\n" 
        , a);

只有示例一，示例三，示例四輸出42，而示例二和五的行爲則是未定義的。關於這種未定義的東西是由於Sequence Points的影響（Sequence Points是一種規則，也就是程序執行的序列點，在兩點之間的表達式只能對變量有一次修改），由於這會讓編譯器不知道在一個表達式順列上如何存取變量的值。好比a = a++，a + a++，不過，在C中，這樣的狀況不多。

下面，再看一段代碼：（假設int爲4字節，char爲1字節）

這個代碼會輸出什麼?

a) 9，10
b)12, 12
c)12, 16

答案是C，我想，你必定知道字節對齊，是向4的倍數對齊。

可是，你知道爲何要字節對齊嗎？仍是由於性能。由於這些東西都在內存裏，若是不對齊的話，咱們的編譯器就要向內存一個字節一個字節的取，這樣一來，struct X，就須要取9次，太浪費性能了，而若是我一次取4個字節，那麼我三次就搞定了。因此，這是爲了性能的緣由。
可是，爲何struct Y不向12 對齊，卻要向16對齊，由於char d; 被加在了最後，當編譯器計算一個結構體的尺寸時，是邊計算，邊對齊的。也就是說，編譯器先看到了int，很好，4字節，而後是 char，一個字節，然後面的int又不能填上還剩的3個字節，不爽，把char b對齊成4，因而計算到d時，就是13 個字節，因而就是16啦。可是若是換一下d和c的聲明位置，就是12了。

另外，再提一下，上述程序的printf中的%d並很差，由於，在64位下，sizeof的size_t是unsigned long，而32位下是 unsigned int，因此，C99引入了一個專門給size_t用的%zu。這點須要注意。在64位平臺下，C/C++ 的編譯須要注意不少事。你能夠參看《64位平臺C/C++開發注意事項》。

下面，咱們再說說編譯器的Warning，請看代碼：

 
        1 
      
        2 
      
        3 
      
        4 
      
        5 
      
        6 
      
        #include <stdio.h> 
       
        int 
        main( 
        void 
        ) 
       
        { 
       
        int 
        a; 
       
        printf 
        ( 
        "%d\n" 
        , a); 
       
        }

考慮下面兩種編譯代碼的方式：

cc -Wall a.c
cc -Wall -O a.c

前一種是不會編譯出a未初化的警告信息的，而只有在-O的狀況下，纔會有未初始化的警告信息。這點就是爲何咱們在makefile裏的CFLAGS上老是須要-Wall和 -O。

最後，咱們再來看一個指針問題，你看下面的代碼：

 
        1 
      
        2 
      
        3 
      
        4 
      
        5 
      
        6 
      
        7 
      
        8 
      
        9 
      
        #include <stdio.h> 
       
        int 
        main( 
        void 
        ) 
       
        { 
       
        int 
        a[5]; 
       
        printf 
        ( 
        "%x\n" 
        , a); 
       
        printf 
        ( 
        "%x\n" 
        , a+1); 
       
        printf 
        ( 
        "%x\n" 
        , &a); 
       
        printf 
        ( 
        "%x\n" 
        , &a+1); 
       
        }

假如咱們的a的地址是：0Xbfe2e100, 並且是32位機，那麼這個程序會輸出什麼？

第一條printf語句應該沒有問題，就是 bfe2e100
第二條printf語句你可能會覺得是bfe2e101。那就錯了，a+1，編譯器會編譯成 a+ 1*sizeof(int)，int在32位下是4字節，因此是加4，也就是bfe2e104
第三條printf語句多是你最頭疼的，咱們怎麼知道a的地址？我不知道嗎？可不就是bfe2e100。那豈不成了a==&a啦？這怎麼可能？本身存本身的？也許不少人會以爲指針和數組是一回事，那麼你就錯了。若是是 int *a，那麼沒有問題，由於a是指針，因此 &a 是指針的地址，a 和 &a不同。可是這是數組啊a[]，因此&a實際上是被編譯成了 &a[0]。
第四條printf語句就很天然了，就是bfe2e104。仍是不對，由於是&a是數組，被當作int(*)[5]，因此sizeof(a)是5，也就是5*sizeof(int)，也就是bfe2e114。

看過這麼多，你可能會以爲C語言設計得真扯淡啊。不過我要告訴下面幾點Dennis當初設計C語言的初衷：

1）相信程序員，不阻止程序員作他們想作的事。

2）保持語言的簡潔，以及概念上的簡單。

3）保證性能，就算犧牲移植性。

今天不少語言進化得很高級了，語法也愈來愈複雜和強大，可是C語言依然光芒四射，Dennis離世了，可是C語言的這些設計思路將永遠不朽。