淺談操做系統原理

時間 2019-11-10

標籤淺談系統原理简体版

原文原文鏈接

注：文中講述的原理是推理和探討，和現實中的實現不必定徹底相同。html

操做系統，主要分爲 8 個部分：算法

1 引導程序數據庫

2 設備驅動數組

3 控制檯網絡

4 進程調度多線程

5 虛擬內存架構

6 文件系統函數

7 網絡通訊spa

8 編譯器操作系統

引導程序，按照如今的業界標準，大概是接通電源 -> BIOS 啓動 -> 引導程序。引導程序是磁盤開頭的一段字節存儲的代碼。 BIOS 啓動後就將控制權交給這段代碼，或者說加載這段代碼進入內存，並執行這段代碼。引導程序加載到內存裏應該也是存儲在內存的低位地址附近，好比從地址爲 0 ，或者 1 的內存單元開始存儲。不過我到如今都有一個疑問，內存地址可使用「0」這個地址嗎？ C / C++ / C# 好像都是用 0 來表示空指針（null）的。

引導完了，要顯示一個界面給用戶看，最基本的就是控制檯。要顯示控制檯，須要操做顯示器，因此這就是須要設備驅動。

固然，還須要鍵盤鼠標的輸入，最起碼要有鍵盤的輸入，這也是設備驅動。

因此控制檯就是設備驅動加上一點小小的控制程序就能夠啦。

這就是一個簡單的小小操做系統了。

看起來跟 Dos 很像？

咱們再來看看設備驅動如何實現，

設備驅動就是給設備發送指令，以及和設備的數據傳輸。

CPU 應該有給設備發送指令的指令。聽說設備會被映射成寄存器？或者一個內存地址？

CPU 和設備之間的通訊分爲 CPU 操做設備和設備通知 CPU 。

CPU 操做設備很簡單，就向設備發出指令，該寫數據寫數據，該讀數據讀數據就行。

設備通知 CPU 這個有點複雜，

好比鼠標鍵盤網卡，這些交互式的設備，以及和外部通訊的設備都會通知 CPU 。

好比用戶對鼠標移動按鍵等，就會通知 CPU，網卡接收到網絡傳輸過來的數據，也會通知 CPU ，

由 CPU 對數據作出處理（響應）。

這個通知的方式是中斷，即設備須要通知 CPU 時，發起一個中斷， CPU 接收到中斷會轉入中斷處理程序，接下來就能夠對設備的數據進行處理。

中斷是 CPU 硬件實現的一個機制，因此效率很高。

我前段時間看過一篇文章，說早期的 CPU 也是沒有中斷的，那時的操做系統是經過輪詢的方式來檢查設備是否有數據（通知 (Announce)），

看到這裏，我笑了。

嚴格來說，轉入中斷處理程序時要保存當前程序的上下文，因此，中斷處理程序是一個進程，或者說，轉入中斷處理程序是跨進程的。

而在執行中斷處理程序的過程當中，若是又發生了中斷，怎麼辦？

好像能夠嵌套執行中斷，就好像函數嵌套同樣，新的中斷發生，就轉入新中斷的處理程序，處理完之後，再回到原來的中斷處理程序繼續執行。

還有就是忽略中斷中的中斷，這大概是級別比較高的系統核心中斷會這麼作。

也許還能夠有中斷排隊。

固然這些就是操做系統要處理的邏輯。

進程調度，

現代操做系統都是多進程多線程的架構。

有的文章說 Linux 裏的線程是小進程，有的文章說 Windows 裏是以線程爲調度單位。

無論小進程仍是線程，咱們以線程來看好了。

咱們這樣來設計：

系統的調度單元是線程，一個進程能夠包含多個線程，最少會有一個線程。

進程的動態性由線程來表現，進程做爲一個靜態的資源邊界。

這跟 Windows 比較像吧？

由於各個廠商各個型號的設備的操做方式不一樣，因此操做系統定義一個規範，能夠由廠商和開發者本身編寫設備驅動程序，來支持設備。

操做系統只要和設備驅動程序交互就行。

而設備驅動程序的規範中一個重要的部分就是上述的中斷原理。

當 CPU 接收到設備發出的中斷後，轉入中斷處理程序，但並不須要在中斷處理程序中進行具體的處理邏輯，中斷處理程序只須要將負責具體處理邏輯的驅動程序線程加入就緒隊列就能夠，這樣驅動程序線程很快就能夠執行，進行具體的處理了。驅動程序線程平時是掛起（Suspend）的狀態。

進程做爲一個靜態邊界，主要就是內存裏的數據段代碼段，廣義的說，還有線程池等等資源。

線程共用的堆和每一個線程各自的棧，應該都是在數據段裏吧 ~~ ？

那麼如何來調度進程（線程）呢？

我以爲平均主義最簡單，

對於就緒隊列裏的線程，每一個分配 1000 納秒的時間片，這樣輪流執行，這樣， 1 秒鐘能夠執行 100萬個線程，固然每一個線程只能分到 1 個時間片。

若是是 1萬個線程，那麼每一個線程能夠分到 100 個時間片，累計時間是 100 微秒 = 0.1 毫秒。

若是是 1千個線程，那麼每一個線程能夠分到 1000 個時間片，累計時間是 1000 微秒 = 1 毫秒。

若是是 100 個線程，那麼每一個線程能夠分到 1 萬個時間片，累計時間是 1萬微秒 = 10 毫秒。

固然這是理論上的，並無把線程切換等的時間花費算進去。

你們會問，對於不怎麼運行的線程，平均分配會不會被不怎麼運行的線程佔用比較多的時間片，形成浪費？

這是由於 Windows （Linux ？）有一個「搶佔式多任務」的概念吧，意思就是對於使用時間片越多的線程就分配更多的時間片給它。

但我以爲這個問題不存在，

不運行的線程就掛起嘛，無論是 Sleep，仍是掛起， Sleep 也是一種掛起。

掛起了就不佔用時間片了，因此不存在浪費一說。

對於在就緒隊列中的線程，均等的給予時間片，保證實時響應性。

有一個基本的問題是，應用程序進程在運行時是佔用了 CPU 的，那麼，由誰來調度進程？應用程序進程怎麼切換到其它進程？

仍是用上面說的中斷的方法。

操做系統會在 CPU 裏設置一個中斷，咱們能夠稱之爲「系統中斷」，能夠設定爲每隔一個時間片（好比 1000 納秒）發起一次中斷，

這是 CPU 本身發出的中斷，

中斷後，轉入系統中斷處理程序，即系統中斷進程，

在系統中斷進程裏，能夠進行進程調度，根據調度算法，系統中斷進程將 CPU 交給下一個等待執行的進程。

在 Windows 的任務管理器裏，能夠看到一個「系統中斷」的進程，也許就是咱們上面說的系統中斷進程吧 ~ ！

在系統比較繁忙，好比開了比較多的程序時，會看到任務管理器裏的「系統中斷」進程會佔用比較多的 CPU，多是忙於虛擬內存的頁載入載出，

若是是這樣的話， Windows 裏的「系統中斷」還包含了虛擬內存的功能。

接下來講說虛擬內存，

虛擬內存裏，頁的大小（Size）是一個關鍵的參數。

頁太大了很差，頁過小了也很差。

我提議用線性表做爲頁表，假設有 1M 個頁表項，每一個頁的大小（Size）是 1M ，這樣虛擬內存空間能夠達到 1M * 1M = 1T ，

如何？

頁表項的內容是 1 當前頁是在物理內存仍是在磁盤頁文件， 2 若是在物理內存，頁的物理內存地址，若是在磁盤頁文件，頁在頁文件裏的地址（Position）。

1T 的地址空間大概是用 40位的地址能夠表示，再加上用一個位表示在物理內存仍是磁盤頁文件，頁表項能夠用 41 位來表示，

咱們能夠放寬一點，用 64 位（8 個字節）來表示，

這樣， 1M 個頁表項就佔用 1M * 8 = 8M 的空間，或者說，頁表須要佔用 8M 的空間。

也就是說， 8M 的頁表能夠管理 1T 的虛擬內存空間。

線性表的優勢是查找快。

實際上頁表項還能夠再小一點，由於頁的大小是固定的，因此咱們能夠用編號來表示頁在物理內存和磁盤頁文件中的位置。

好比

編號 * 1M = 頁在磁盤頁文件中的位置，

編號 * 1M + 起始地址 = 頁在物理內存中的位置，起始地址是物理內存開始用來存儲頁的地址

這樣頁表項只要有 21 位就能夠了， 20 位表示 1M 範圍內的編號， 1 位表示頁在物理內存仍是磁盤頁文件。

可是這樣須要多一個計算的過程，就是上面說的，

編號 * 1M = 頁在磁盤頁文件中的位置，

編號 * 1M + 起始地址 = 頁在物理內存中的位置，起始地址是物理內存開始用來存儲頁的地址

要多一次計算才能知道頁在磁盤頁文件或者頁在物理內存中的位置。

虛擬內存地址換算成物理內存地址的算法是，虛擬地址 / 除以頁的大小（Size），商 = 頁的序號，餘數 = 地址在頁裏的偏移量。

根據頁的序號在頁表中查找頁表項，

由於頁表是線性表，因此根據頁的序號在頁表中查找頁表項至關於查找數組。

找到頁表項後，能夠知道頁在物理內存仍是磁盤頁文件，

若是在物理內存，則能夠知道頁的物理地址，頁的物理地址 + 地址在頁裏的偏移量 = 虛擬地址的換算結果

虛擬地址的換算結果就是虛擬地址對應的物理地址。

若是頁在磁盤頁文件，則須要將頁加載到物理內存，再根據上述算法將虛擬地址轉換成物理地址。

由於物理內存空間有限，因此將頁從磁盤頁文件載入物理內存的同時，也會將頁從物理內存移除，載入磁盤頁文件。

因此就存在一個「命中算法」，優先載入哪些頁，優先載出哪些頁，使得效率更高。

固然經常使用的留下，不經常使用的載出，這大概是大原則。

命中算法其實隨便怎麼玩均可以，不是大問題。

如今的虛擬內存的地址轉換是在 CPU 的存儲管理部件中完成的，也就是硬件完成的，操做系統只要設置好頁表就好。

我想，早期的虛擬內存應該是由操做系統提供一個地址轉換的原語，

編譯器在編譯的時候，對每次尋址操做，都編譯成先調用地址轉換原語，將虛擬地址轉換成物理地址，再用物理地址執行具體操做。

這是軟件方式實現的虛擬地址轉換，固然比起硬件實現的方式，效率比較低。

這種方式可能主要存在於早期的實驗室裏。

文件系統是線性表 + 鏈表的經典案例。

文件是連續的順序的，因此，在磁盤上，咱們也會連續的順序的來存儲文件。

但若是 1M 的文件，磁盤上有 500K 和 600K 這樣 2 個不連續的空閒空間，那要怎麼存儲？

固然是把文件分爲 2 部分，每部分 500K，部分 1 存 500K 的空閒空間，部分 2 存 600K 的空閒空間。

在部分 1 的末尾，會保存一個指針，指向部分 2 的起始地址。

以此類推，文件在磁盤上的物理拓撲是，一個用鏈表方式鏈接起來的多個線性表。

這也是磁盤使用一段時間後「磁盤碎片增多，讀寫效率變低」的緣由。

這一點在機械硬盤上尤其明顯。

這是文件的存儲。

文件系統還包含文件和目錄表，用於（根據名字）檢索文件和目錄。

文件目錄表一般會在磁盤的開頭劃定一塊固定區域來保存。

文件目錄表的格式和這塊固定區域的大小決定了文件目錄表最多能管理多少個文件。

這也是一般咱們會看到「xx 文件系統最多支持 yy 個文件， zz 個目錄」的緣由吧！

索引的特色是檢索的時間花費與文件（目錄）數量無關，只與文件（目錄）名字長度有關。

這也是 Dos 只支持 8個英文字符的文件（目錄）名，而 Windows 支持很長的文件（目錄）名的緣由吧。

有關索引，我在《我發起了一個 .Net 開源數據庫項目 SqlNet》 http://www.javashuo.com/article/p-gpuysmcv-q.html 一文中有論述。

網絡通訊的基礎是網卡驅動，網卡驅動也是設備驅動，設備驅動的部分在上文簡單的說了。

網卡驅動解決了，網絡通訊就簡單了，

只要按照協議格式分析數據，拆包，將數據轉發給應用程序就能夠了。

操做系統應該提供至少一個編譯器，好比 C 語言編譯器，這樣開發者能夠在操做系統上編寫程序。

有關編譯器，請參考我寫的另外一篇文章《漫談編譯原理》 http://www.javashuo.com/article/p-fhvkvvhp-hk.html

計算機技術發展到如今，也是卷帙浩繁，是個大工程。

不過從工程學的角度來看，也不復雜，

咱們能夠蓋一座大樓，就能蓋兩座大樓，能蓋兩座大樓，就能蓋三座大樓，能蓋三座大樓，就能蓋四座大樓， ……

蓋十座大樓也是能夠的嘛。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

淺談 操做系統原理

淺談操做系統原理