C/C++ 語言中的表達式求值

時間 2019-11-12

標籤 c++ 語言表達式求值欄目 C&C++ 简体版

原文原文鏈接

在此，首先向裘老師致敬！
程序員

裘宗燕：C/C++ 語言中的表達式求值
數組

常常能夠在一些討論組裏看到下面的提問：「誰知道下面C語句給n賦什麼值？」
m = 1; n = m+++m++;
最近有位不相識的朋友發email給我，問爲何在某個C++系統裏，下面表達式打印出兩個4，而不是4和5：
a = 4; cout << a++ << a;
C++ 不是規定 << 操做左結合嗎？是C++ 書上寫錯了，仍是這個系統的實現有問題？函數

注：運行a = 4; cout << a++ << a; 如在Visual c++ 6.0中，獲得的是4和4；在Visual Studio中，獲得的是4和5. 到底哪一個是對的呢？請詳看後面的分析！

要弄清這些，須要理解的一個問題是：若是程序裏某處修改了一個變量（經過賦值、增量/減量操做等），何時從該變量可以取到新值？有人可能說，「這算什麼問題！我修改了變量，再從這個變量取值，取到的固然是修改後的值！」其實事情並不這麼簡單。
C/C++ 語言是「基於表達式的語言」，全部計算（包括賦值）都在表達式裏完成。「x = 1;」就是表達式「x = 1」後加表示語句結束的分號。要弄清程序的意義，首先要理解表達式的意義，也就是：1）表達式所肯定的計算過程；2）它對環境（能夠把環境看做當時可用的全部變量）的影響。若是一個表達式（或子表達式）只計算出值而不改變環境，咱們就說它是引用透明的，這種表達式早算晚算對其餘計算沒有影響（不改變計算的環境。固然，它的值可能受到其餘計算的影響）。若是一個表達式不只算出一個值，還修改了環境，就說這個表達式有反作用（由於它多作了額外的事）。a++ 就是有反作用的表達式。這些說法也適用於其餘語言裏的相似問題。
如今問題變成：若是C/C++ 程序裏的某個表達式（部分）有反作用，這種反作用什麼時候才能實際體現到使用中？爲使問題更清楚，咱們假定程序裏有代碼片斷「...a[i]++ ... a[j] ...」，假定當時i與j的值剛好相等（a[i] 和a[j] 正好引用同一數組元素）；假定a[i]++ 確實在a[j] 以前計算；再假定其間沒有其餘修改a[i] 的動做。在這些假定下，a[i]++ 對 a[i] 的修改能反映到 a[j] 的求值中嗎？注意：因爲 i 與 j 相等的問題沒法靜態斷定，在目標代碼裏，這兩個數組元素訪問（對內存的訪問）必然經過兩段獨立代碼完成。現代計算機的計算都在寄存器裏作，問題如今變成：在取 a[j] 值的代碼執行以前，a[i] 更新的值是否已經被（從寄存器）保存到內存？若是瞭解語言在這方面的規定，這個問題的答案就清楚了。
程序語言一般都規定了執行中變量修改的最晚實現時刻（稱爲順序點、序點或執行點）。程序執行中存在一系列順序點（時刻），語言保證一旦執行到達一個順序點，在此以前發生的全部修改（反作用）都必須實現（必須反應到隨後對同一存儲位置的訪問中），在此以後的全部修改都還沒有發生。在順序點之間則沒有任何保證。對C/C++ 語言這類容許表達式有反作用的語言，順序點的概念特別重要。
如今上面問題的回答已經很清楚了：若是在a[i]++ 和a[j] 之間存在一個順序點，那麼就能保證a[j] 將取得修改以後的值；不然就不能保證。
C/C++語言定義（語言的參考手冊）明肯定義了順序點的概念。順序點位於：
1. 每一個完整表達式結束時。完整表達式包括變量初始化表達式，表達式語句，return語句的表達式，以及條件、循環和switch語句的控制表達式（for頭部有三個控制表達式）；
2. 運算符 &&、||、?: 和逗號運算符的第一個運算對象計算以後；
3. 函數調用中對全部實際參數和函數名錶達式（須要調用的函數也可能經過表達式描述）的求值完成以後（進入函數體以前）。
假設時刻ti和ti+1是先後相繼的兩個順序點，到了ti+1，任何C/C++ 系統（VC、BC等都是C/C++系統）都必須實現ti以後發生的全部副做用。固然它們也能夠不等到時刻ti+1，徹底能夠選擇在時段 [t, ti+1] 之間的任什麼時候刻實如今此期間出現的反作用，由於C/C++ 語言容許這些選擇。
前面討論中假定了a[i]++ 在a[i] 以前作。在一個程序片斷裏a[i]++ 到底是否先作，還與它所在的表達式肯定的計算過程有關。咱們都熟悉C/C++ 語言有關優先級、結合性和括號的規定，而出現多個運算對象時的計算順序卻經常被人們忽略。看下面例子：
(a + b) * (c + d) fun(a++, b, a+5)
這裏「*」的兩個運算對象中哪一個先算？fun及其三個參數按什麼順序計算？對第一個表達式，採用任何計算順序都不要緊，由於其中的子表達式都是引用透明的。第二個例子裏的實參表達式出現了反作用，計算順序就很是重要了。少數語言明確規定了運算對象的計算順序（Java規定從左到右），C/C++ 則有意不予規定，既沒有規定大多數二元運算的兩個對象的計算順序（除了&&、|| 和，），也沒有規定函數參數和被調函數的計算順序。在計算第二個表達式時，首先按照某種順序算fun、a++、b和a+5，以後是順序點，然後進入函數執行。
很多書籍在這些問題上有錯（包括一些很流行的書）。例如說C/C++ 先算左邊（或右邊），或者說某個C/C++ 系統先計算某一邊。這些說法都是錯誤的！一個C/C++ 系統能夠永遠先算左邊或永遠先算右邊，也能夠有時先算左邊有時先算右邊，或在同一表達式裏有時先算左邊有時先算右邊。不一樣系統可能採用不一樣的順序（由於都符合語言標準）；同一系統的不一樣版本徹底能夠採用不一樣方式；同一版本在不一樣優化方式下，在不一樣位置均可能採用不一樣順序。由於這些作法都符合語言規範。在這裏還要注意順序點的問題：即便某一邊的表達式先算了，其反作用也可能沒有反映到內存，所以對另外一邊的計算沒有影響。
回到前面的例子：「誰知道下面C語句給n賦什麼值？」
m = 1; n = m++ +m++;
正確回答是：不知道！語言沒有規定它應該算出什麼，結果徹底依賴具體系統在具體上下文中的具體處理。其中牽涉到運算對象的求值順序和變量修改的實現時刻問題。對於：
cout << a++ << a;
咱們知道它是
(cout.operator <<(a++)).operator << (a);
的簡寫。先看外層函數調用，這裏須要算出所用函數，還須要計算a的值。語言沒有規定哪一個先算。若是真的先算函數，這一計算中出現了另外一次函數調用，在被調函數體執行前有一個順序點，那時a++的反作用就會實現。若是是先算參數，求出a的值4，然後計算函數時的反作用固然不會改變它（這種狀況下輸出兩個 4）。固然，這些只是假設，實際應該說的是：這種東西根本不應寫，討論其效果沒有意義。
有人可能說，爲何人們設計 C/C++時不把順序規定清楚，免去這些麻煩？C/C++ 語言的作法徹底是有意而爲，其目的就是容許編譯器採用任何求值順序，使編譯器在優化中能夠根據須要調整實現表達式求值的指令序列，以獲得效率更高的代碼。像 Java那樣嚴格規定表達式的求值順序和效果，不只限制了語言的實現方式，還要求更頻繁的內存訪問（以實現反作用），這些可能帶來可觀的效率損失。應該說，在這個問題上，C/C++和Java的選擇都貫徹了它們各自的設計原則，各有所獲（C/C++ 潛在的效率，Java更清晰的程序行爲），固然也都有所失。還應該指出，大部分程序設計語言實際上都採用了相似C/C++的規定。
討論了這麼多，應該獲得什麼結論呢？C/C++ 語言的規定告訴咱們，任何依賴於特定計算順序、依賴於在順序點之間實現修改效果的表達式，其結果都沒有保證。程序設計中應該貫徹的規則是：若是在任何「完整表達式」（造成一段由順序點結束的計算）裏存在對同一「變量」的多個引用，那麼表達式裏就不該該出現對這一「變量」的反作用。不然就不能保證獲得預期結果。注意：這裏的問題不是在某個系統裏試一試的問題，由於咱們不可能試驗全部可能的表達式組合形式以及全部可能的上下文。這裏討論的是語言，而不是某個實現。總而言之，毫不要寫這種表達式，不然咱們或早或晚會某種環境中遇到麻煩。
後記：去年參加一個學術會議，看到有同行寫文章討論某個C系統裏表達式究竟按什麼順序求值，並總結出一些「規律」。從討論中瞭解到某「程序員水平考試」出了這類題目。這使我感到很不安。今年給一個教師學習班講課，發現許多專業課教師也對這一基本問題也不甚明瞭，更以爲問題確實嚴重。所以整理出這篇短文供大家參考。
後後記：4年多過去了，許多新的和老的教科書仍然在不厭其煩地討論在C語言裏本來並沒有意義的問題（如本文所指出的）。但願學習和使用C語言的人不要陷入其中。學習