研究底層要適度

時間 2019-11-17

標籤研究底層適度简体版

原文原文鏈接

做者：陳碩
連接：https://www.zhihu.com/question/22608820/answer/21968467
來源：知乎

既然你是在校學生，並且編程語言和數據結構的基礎還不錯，我認爲應該在《操做系統》和《計算機體系結構》這兩門課上下功夫，而後纔去讀編程方面的 APUE、UNP 等書。html

下面簡單談談我對學習這兩門課的見解和建議，都是站在服務端程序員的角度，從實用主義（pragmatic）的立場出發而言的。程序員

學習操做系統的目的，不是讓你去發明本身操做系統內核，戰勝 Linux；也不是成爲內核開發人員；而是理解操做系統爲用戶態進程提供了怎樣的運行環境，做爲程序員應該如何才能充分利用好這個環境，哪些作法是有益的，哪些是作無用功，哪些則是幫倒忙。算法

學習計算機體系結構的目的，不是讓你去設計本身的 CPU（新的 ISA 或微架構），戰勝 Intel 和 ARM；也不是參與到 CPU 設計團隊，改進現有的微架構；而是明白現代的處理器的能力與特性（例如流水線、多發射、分支預測、亂序執行等等指令級並行手段，內存局部性與 cache，多處理器的內存模型、能見度、重排序等等），在編程的時候經過適當組織代碼和數據來發揮 CPU 的效能，避免 pitfalls。Modern Microprocessors編程

這兩門課程該如何學？看哪些書？這裏我告訴你一個通用的辦法，去美國計算機系排名靠前的大學的課程主頁，找到這兩門課最近幾年的課程大綱、講義、參考書目、閱讀材料、隨堂練習、課後做業、編程實驗、期末項目等，而後你就內心有數了。

學習任何一門課程都要善於抓住主要矛盾、分清主次、突出重點，關鍵是掌握知識框架，學會之後真正有用的知識和技能，而不要把精力平均分配在一些雜事上。安全

請容許我再次引用孟巖的觀點：http://blog.csdn.net/myan/article/details/5877305網絡

我（孟巖）主張，在具有基礎以後，學習任何新東西，都要抓住主線，突出重點。對於關鍵理論的學習，要集中精力，速戰速決。而旁枝末節和非本質性的知識內容，徹底能夠留給實踐去零敲碎打。數據結構

緣由是這樣的，任何一個高級的知識內容，其中都只有一小部分是有思想創新、有重大影響的，而其它不少東西都是瑣碎的、非本質的。所以，集中學習時必須把握住真正重要那部分，把其它東西留給實踐。對於重點知識，只有集中學習其理論，才能確保體系性、連貫性、正確性，而對於那些旁枝末節，只有邊幹邊學可以讓你瞭解它們的真實價值是大是小，才能讓你留下更生動的印象。若是你把精力用錯了地方，好比用集中大塊的時間來學習那些原本只須要查查手冊就能夠明白的小技巧，而對於真正重要的、思想性東西放在平時零敲碎打，那麼確定是事倍功半，甚至拔苗助長。多線程

所以我對於市面上絕大部分開發類圖書都不滿——它們基本上都是面向知識體系自己的，而不是面向讀者的。老是把相關的全部知識細節都放在一堆，而後一堆一堆攢起來變成一本書。反映在內容上，就是毫無重點地平鋪直敘，不分輕重地陳述細節，每每在第三章之前就用無聊的細節謀殺了讀者的熱情。架構

好比說操做系統，應該把精力主要放在進程管理與調度、內存管理、併發編程與同步、高效的IO等等，而不要過於投入到初始化（從 BIOS 加載引導扇區、設置 GDT、進入保護模式）這種一次性任務上。我發現國內講 Linux 內核的書每每把初始化的細節放在前幾章，而國外的書一般放附錄，你能夠體會一下。初始化對操做系統自己而言固然是重要的，可是對於在用戶態寫服務程序的人來講，弄清楚爲何要打開 PC 上的 A20 地址線真的有用處嗎？（這不過是個歷史包袱罷了。）併發

再比方說《計算機網絡》，關鍵之一是理解如何在底層有丟包、重包、亂序的條件下設計出可靠的網絡協議，這不算難。難一點的是這個可靠協議能達到「既能充分利用帶寬，又能作到足夠公平（併發鏈接大體平均分享帶寬）」。而不是學會手算 CRC32，這更適合放到信息論或別的課程裏去講。

注意分清知識的層次。就比如造汽車與開汽車的區別，我認爲一個司機的技能主要體如今各類道路條件和天氣情況下都能安全駕駛（城市道路、高速公路、鄉間公路 X 晴、雨、雪、霧），平安到達目的地。做爲一名司機，瞭解汽車運行的基本原理固然是好事，能夠有助於更好地駕駛和排除一些常見故障。但不宜喧賓奪主，只要你不真正從事汽車設計工做，你再怎麼研究發動機、傳動、轉向，也不可能比汽車廠的工程師強，畢竟這是人家的全職工做。並且鑽研汽車構造超過必定程度以後，對開好車就沒多大影響了，成了我的興趣愛好。「有的人學着學着成了語言專家，反而忘了本身本來是要解決問題來的。」（語出孟巖快速掌握一個語言最經常使用的50%）

對於併發編程來講，掌握 mutex、condition variable 的正確用法，避免誤用（例如防止 busy-waiting 和 data race）、避免性能 pitfalls，是通常服務端程序員應該掌握的知識。而如何實現高效的 mutex 則是 libc 和 kernel 開發者應該關心的事，隨着硬件的發展（CPU 與內存之間互聯方式的改變、核數的增長），最優作法也隨之改變。若是你不能持續跟進這一領域的發展，那麼你深刻鑽研以後掌握的知識到了幾年以後可能反而成爲累贅，當年針對當時硬件的最優特殊作法（比如說定製了本身的 mutex 或 lock-free 數據結構）在幾年後有可能反而會拖低性能。還不如按最清晰的方式寫代碼，利用好語言和庫的現成同步設施，讓編譯器和 libc 的做者去操心「與時俱進」的事。

注意識別過期的知識。比方說《操做系統》講磁盤IO調度每每會講電梯算法，可是如今的磁盤廣泛內置了這一功能（NCQ），無需操做系統操心了。若是你在一個比較好的學校，操做系統課程的老師應該能指出這些知識點，避免學生浪費精力；若是你全靠自學，我也沒什麼好辦法，儘可能用新版的書吧。相似的例子還有《計算機體系結構》中可能會講 RISC CPU 流水線中的 delay slot，如今彷佛也都廢棄了。《計算機網絡》中相似的狀況也很多，首先是 OSI 七層模型已經被證實是扯淡的，如今國外流行的教材基本都按五層模型來說（Internet protocol suite），若是你的教材還鄭重其事地講 OSI （還描繪成將來的但願），扔了換一本吧。其次，局域網層面，以太網一家獨大（幾乎成了局域網的代名詞），FDDI/Token ring/ATM 基本沒啥公司在用了。就說以太網，如今也用不到 CSMA/CD 機制（由於 10M 的同軸電纜、10M/100M 的 hub 都過期了，交換機也早就普及了），所以碰撞檢測算法要求「以太網的最小幀長大於最大傳播延遲的二倍」這種知識點了解一下就好了。

另一點是 low level 優化的知識很是容易過期，編碼時要避免過分擬合（overfitting）。比方說目前國內一些教科書（特別是大一第一門編程語言的教程）還在傳授「乘除法比加減法慢、浮點數運算比整數運算慢、位運算最快」這種過期的知識。現代通用 CPU 上的實際狀況是整數的加減法和乘法運算幾乎同樣快，整數除法慢不少；浮點數的加減法和乘法運算幾乎和整數同樣快，浮點數除法慢不少。所以用加減法代替乘法（或用位運算代替算術運算）不見得能提速，反而讓代碼難懂。並且現代編譯器能夠把除數爲小整數的整數除法轉變爲乘法來作，無需程序員操心。（目前用浮點數乘法代替浮點數除法彷佛仍是值得一作的，例如除以10改成乘以0.1，由於浮點運算的特殊性（不知足結合律和分配率），阻止了編譯器優化。）

相似的 low level 優化過期的例子是早年用匯編語言寫了某流行圖像格式的編解碼器，但隨着 CPU 微架構的發展，其並不比現代 C 語言（可能用上 SIMD）的版本更快，反而由於使用了 32-bit 彙編語言，致使往 64-bit 移植時出現麻煩。若是不能派人持續維護更新這個私有庫，還不如用第三方的庫呢。如今能用匯編語言寫出比 C 語言更快的代碼幾乎只有一種可能：使用 CPU 的面向特定算法的新指令，例如 Intel 的新 CPU （將會）內置了 AES、CRC3二、SHA一、SHA256 等算法的指令。不過主流的第三方庫（例如 OpenSSL）確定會用上這些手段，及時跟進便可，基本無需本身操刀。（再舉一個例子，假如公司早先用匯編語言寫了一個很是高效的大整數運算庫，一直運轉良好，原來寫這個庫的高人也升職或另謀高就了。Intel 在 2013 年發佈了新微架構 Haswell，新增了 MULX 指令，能夠進一步提升大整數乘法的效率 GMP on Intel Haswell ，那麼貴公司是否有人持續跟進這些 CPU 的進化，並及時更新這個大整數運算庫呢？或者直接用開源的 GMP 庫，讓 GMP 的做者去操心這些事情？）

若是你要記住結論，必定要同時記住前提和適用條件。在錯誤的場合使用本來正確的結論的搞笑例子舉不勝舉。

《Linux內核源碼情景分析》上分析內核使用 GDT/LDT 表項的情況，得出進程數不超過 4090 的結論。若是你打算記住這個結論，必定要記住這是在 Linux 2.4.0 內核，32-bit Intel x86 平臺上成立，新版的內核和其餘硬件平臺極可能不成立。看完書後千萬不要張口就來「書上說 Linux 的最大進程數是 4090」。
一個 Linux 進程最多建立 300 餘個線程，這個結論成立的條件是 3GB 用戶空間，線程棧爲 10M 或 8M。在 64-bit 下不成立。
Reactor 模式只能支持不超過 64 個 handle，這個結論成立的條件是 Windows 下使用 WaitForMultipleObjects 函數實現的 WFMO_Reactor，對於 Linux 下使用 poll/epoll 實現的 Reactor 則無此限制。
C++ STL 的 vector 容器在 clear() 以後不會釋放內存，須要 swap(empty vector)，這是有意爲之（C++11 裏增長了 shrink_to_fit() 函數）。不要記成了全部 STL 容器都須要 swap(empty one) 來釋放內存，事實上其餘容器（map/set/list/deque）都只須要 clear() 就能釋放內存。只有含 reserve()/capacity() 成員函數的容器才須要用 swap 來釋放空間，而 C++ 裏只有 vector 和 string 這兩個符合條件。

最後一點小建議，服務端開發這幾年已經普及 64-bit 多核硬件平臺，所以在學習操做系統的時候，能夠沒必要太關心單核上特有的作法（在單核時代，內核代碼進入臨界區的辦法之一是關中斷，但到了多核時代，這個作法就行不通了），也沒必要太花精力在 32-bit 平臺上。特別是 32-bit x86 爲了能支持大內存，不得已有不少 work around 的作法（困難在於 32-bit 地址空間不夠將所有物理內存映射入內核），帶來了額外的複雜性，這些作法當時有其積極意義，但如今去深刻學彷佛不太值得。

關於項目，我出兩個練手題目：

1、多機數據處理。有 10 臺機器，每臺機器上保存着 10 億個 64-bit 整數（不必定恰好 10 億個，可能有上下幾千萬的浮動），一共約 100 億個整數（其實一共也就 80GB 數據，不算大，選這個量級是考慮了 VPS 虛擬機的容量，便於實驗）。編程求出：

1. 這些數的平均數。

2. 這些數的中位數。

3. 出現次數最多的 100 萬個數。

*4. （附加題）對這 100 億個整數排序，結果順序存放到這 10 臺機器上。

*5. （附加健壯性要求）你的程序應該能正確應對輸入數據的各類分佈（均勻、正態、Zipf）。

*6. （附加伸縮性要求）你的程序應該能平滑擴展到更多的機器，支持更大的數據量。好比 20 臺機器、一共 200 億個整數，或者 50 臺機器、一共 500 億個整數。

2、N-皇后問題的多機並行求解。利用多臺機器求出 N-皇后問題有多少個解。（注意目前的世界紀錄是 N = 26，A000170 - OEIS ）

1. 8 皇后問題在單機上的運算時間是毫秒級，有 92 個解，編程實現之。

2. 研究 N-皇后問題的並行算法，寫一個單機多線程程序，爭取達到線性加速比（以 CPU 核數計）。再設法將算法擴展到多機並行。

3. 用 10 臺 8 核的機器（一共 80 個 CPU cores），求解 19-皇后和 20-皇后問題，看看分別須要多少運行時間。你的方案可否平滑擴展到更多的機器？

*4. （附加題）若是這 10 臺機器的型號不一，有 8 核也有 16 核，有舊 CPU 也有更快的新 CPU，你該採用何種負載均衡策略，以求縮短求解問題的時間（至少比 plain round-robin 算法要好）？

你能夠用 Amazon EC2 或 Google GCE 來驗證你的程序的正確性和性能，這兩家的虛擬機都是按小時（甚至更短）收費，開 10 臺虛擬機作一個下午的實驗也花不了多少錢。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。