揭祕String類型背後的故事——帶你領略彙編語言魅力

字符串或串(String)是由數字、字母、下劃線組成的一串字符。通常記爲 s=「a1a2···an」(n>=0)。它是編程語言中表示文本的數據類型。在程序設計中,字符串(string)爲符號或數值的一個連續序列,如符號串(一串字符)或二進制數字串(一串二進制數字)。git

String類型你必定不陌生,畢竟每一位coder都是從var str1 = 「Hello World」過來的。程序員

但它真的就只是如此嗎?聽我娓娓道來。github

1、思考算法

 

在 Swift 開發使用字符串的過程當中,你是否有思考過如下問題?編程

 

- 1 個字符串變量佔用多少內存?sass

- 字符串 str一、str2 的底層存儲有什麼不一樣?微信

 

- 若是對 str一、str2 進行拼接操做,str一、str2 的底層存儲又會發生什麼變化?數據結構

 

 

若是你能準確地回答以上問題,那說明對 Swift 字符串的底層存儲機制仍是比較瞭解的。編程語言

 2、1 個字符串變量佔用多少內存?工具

 

方法 1:MemoryLayout

 

首先,能夠藉助 Swift 自帶的 MemoryLayout 來測試一下

 

 

 方法 2:彙編

 

另外,咱們也能夠藉助一個強有力的底層分析助手—彙編語言,來窺探一下 String 的底層存儲

 

- 實際上分析其餘語法、系統庫的底層,均可以藉助彙編語言

  - 好比多態的原理、泛型的原理、Array 的底層、枚舉的底層等等

  另外,不只僅是 Swift,C、C++、OC 的底層分析,依然能夠藉助彙編語言

  - 畢竟你寫的每一行有效代碼,最終都是要轉成機器指令(0 和 1)

  - 而機器指令是跟彙編指令一一對應的,每一條機器指令都能翻譯成與之對應的彙編指令

  - 能讀懂彙編指令,就至關於能讀懂機器指令,知道 CPU 具體在幹嗎(操做了什麼寄存器,操做了哪塊內存)

 

- 本教程的代碼是直接跑在 Mac 的命令行(CommandLineTools)項目上

  - 所以展現的彙編代碼是基於 X64 的 AT&T 格式彙編,並不是 iOS 真機設備的 ARM 彙編

  - 其實不一樣種類的彙編之間有極大的類似性,只是有些指令的叫法不同

 

跟微軟的 Visual Studio 同樣,Xcode 也內置了很是方便的反彙編功能,能夠輕鬆查看每一句代碼對應的彙編指令,打開反彙編界面的步驟以下

 

- 在某一行須要調試的代碼打上斷點(反彙編界面會在斷點調試狀態下顯示出來)

 

- 菜單:`Debug` > `Debug Workflow` > `Always Show Disassembly`

  - `Assembly` 譯爲彙編, `Disassembly` 譯爲反彙編

 

-   運行程序,看到反彙編界面

 

若是你的反彙編經驗十足,根據第 1六、17 行的彙編就能夠推敲出來,String 是佔用 16 個字節

 

- 由於它用了 rax、rdx 寄存器存放字符串 str 的內容,而 rax、rdx 都是 8 字節的

彙編的內容太多了,由於時間和篇幅關係,文章裏並不會對每一句彙編指令進行詳細地講解,更多的是想說明彙編的重要性。

 3、字符串的底層存儲

 

窺探內存

 

此前我寫了個能夠窺探 Swift 變量內存的小工具:https://github.com/CoderMJLee/Mems

 

- 如今用它來窺探下字符串的 16 字節裏面,究竟存儲着什麼數據

 

- `Mems.memStr(ofVal:)` 默認狀況下按照 8 個字節一組來顯示內存數據

 

- 傳遞參數 `alignment: .one` 是按照 1 個字節一組來顯示內存數據

 

 

 

 

字符 '0'~'9' 的 ASCII 值是 0x30~0x39,認真觀察最初 str1 的 16 個字節數據,你發現了什麼?

 

- 它直接將全部字符的 ASCII 值存儲在 str1 的 16 字節中

 

- 最後 1 個字節 0xea 中的 0xa 就是字符的數量,也是共 10 個字符

拼接

 

 

能夠發現,當對 str1 進行拼接 "ABCDE" 的時候

- 它最終是將 "0123456789ABCDE"十五個字符的 ASCII 值都存儲在了 str1 的 16 字節中

- 最後 1 個字節 0xef 中的 0xf 就是字符的數量,也是共 15 個字符

- 能夠看得出來,目前 16 個字節已經存滿了,那若是再拼接 1 個字符呢?

 

 

 

 

能夠看到,str1 裏面存儲的數據發生了很是大的變化,每個字符的 ASCII 值不見了,

- 那裏面的 16 字節具體是什麼含義呢?

- 全部字符('0'~'9'、'A' 到 'F')的 ASCII 值又存到哪去了呢?

其餘狀況

若是一開始初始化的時候(未拼接以前),字符串的內容就是超過 15 個字符呢?

 

 

相信你能猜到是這個結果

- 這 16 個字節裏面並無出現任何一個字符的 ASCII 值

- 並且這 16 個字節跟 `第27行的str1` 仍是有所區別

  - 雖然它們的字符串內容都是"0123456789ABCDEF"

 

若是對 str2 進行拼接操做

 

 

 

不難發現:這時 str2 的 16 字節又發生了變化,跟 `第27行的str1` 是有點類似的

如何解決上述疑問?

上述的種種疑問,光看打印出來的內存數據是沒法解決的,可是均可以利用【!!!彙編!!!】來解決,分析彙編指令,立馬就得出結論,由於文章的篇幅有限,平時工做也比較忙,我把上述問題的詳細剖析過程錄製成了長達 2 個多小時的視頻,有興趣的朋友能夠用 1.5~2 倍速度觀看

- 連接:https://pan.baidu.com/s/1AkS3K1ZKP8zyxhlhLRaBkA

- 提取碼:kzrk

- 視頻對於沒有彙編基礎的朋友來講,可能會有點難度,最好挑一個頭腦清醒的時間去觀看

- 看完視頻後,但願你們可以確切地感覺到彙編語言的重要性,不要永遠只停留在編寫高級語言代碼、沉迷於語法糖的層面。

 4、最後

最後想多說一句:彙編能給你帶來的價值遠遠不止這篇文章所說的窺探字符串的底層,對你的程序生涯影響絕對是終生受益的(數據結構與算法功底也是如此),好比你還能玩轉軟件破解、遊戲外掛等,這是我此前用【彙編\C++】編寫的一個遊戲外掛:https://github.com/CoderMJLee/SeemygoPVZCheater

 

彙編語言是最接近於機器語言的編程語言。若是說機器語言是計算機操做的本質,那麼彙編語言就是最最接近本質的語言。彙編語言可以讓你更好的理解高級語言,學會彙編後,你能夠經過修改高級語言的代碼來提升算法所不能提升的效率。

在編程領域,字符串雖然是全部編程語言中最重要的部分之一,但它也僅僅是這片領域的一隅。對程序員而言,惟有不斷的探索學習更多技術,才能在這片領域中縱橫遨遊。

以上就是個人技術分享,感受意猶未盡還想學的朋友,送福利了!!想獲取更多技術提高祕籍,歡迎加微信:19950277730,我在這裏爲你隨時解答。這裏有不少如 iOS、數據結構與算法等編程技巧的免費視頻和學習資料。

相關文章
相關標籤/搜索