動畫：散列表 | 文本編輯器是如何檢查英文單詞出錯的？

時間 2021-01-22

標籤數組數據結構編輯器 ide 函數動畫加密 3d blog 圖片简体版

原文原文鏈接

寫在前邊數組

今天小鹿就早早起牀開始正準備更新今日的文章，我熟練的敲打着鍵盤，忽然出現了下面的狀況：數據結構

咦？這編輯器查錯功能居然比我手速還快，這我就不服氣了，我就開始瘋狂地搜着這個編輯器快速查錯功能是如何實現的圖片？編輯器

後來在網上一搜，都說用哈希表實現的，我思考着，用哈希表怎麼實現的，我對此次「案件」愈來愈感興趣，而後我繼續深刻探索哈希表「案情」背後的祕密。ide

功夫不負有心人，我終於在維基百科找到了想要的答案：函數

伴隨着這次「案件」的存在疑點重重，我開始深深的陷入對散列表的思考...動畫

思惟導圖加密

13d

什麼是散列表？blog

維基百科給咱們散列表的定義對於新人來講確實有點難理解，以下：圖片

散列表（Hash table，也叫哈希表），是根據鍵（Key）而直接訪問在內存存儲位置的數據結構。也就是說，它經過計算一個關於鍵值的函數，將所需查詢的數據映射到表中一個位置來訪問記錄，這加快了查找速度。這個映射函數稱作散列函數，存放記錄的數組稱作散列表。 —— 維基百科

那小鹿再來給解釋一波吧。何爲散列表，散列表就像是咱們超市的存儲私人物品的存儲櫃，咱們存儲物品對應的櫃子都會有對應的條形碼，咱們能夠經過掃描條形碼來打開對應的櫃子。其實，這就相似於一個散列表。

如何實現散列表？

對於數據結構中的散列表是如何實現的呢？是否是還記得咱們的兩位老朋友，數組和鏈表。咱們以前再次強調，全部的數據結構基本都是由數組和鏈表演變而來，散列表也不例外。

咱們經過自取櫃的例子，能夠聯想到數組，數組是經過下標來訪問元素的，其實散列表就是數組的一種演變，那麼散列表是如何實現的呢？

咱們將自取櫃的二維碼稱之爲「鍵」，用它來做爲櫃子的惟一標識。而後把二維碼轉化爲特定櫃子的映射方法叫作「散列函數」（也能夠稱爲哈希函數）。經過映射打開對應的櫃子，這個映射的值叫作「哈希值」

一樣，數組的下標對應的就是「鍵」，下標所映射到的元素就是「散列值」，這就是一個散列表。

哈希函數

上文中，咱們提到將「鍵」映射爲「哈希值」的函數，叫作哈希函數。那麼這個函數是如何實現的呢？

對於數組演變的散列表，咱們能夠知道哈希函數有這麼幾個特色：

哈希函數獲得的哈希值是一個非負數的值；

若是「鍵」相同，經過哈希函數獲得的哈希值必定相同。

有的小夥伴可能會問，同一個哈希值必定是同一個「鍵」嗎？這個問題問的好，你還真別說，還真有不是一個的可能，由於存在哈希衝突。

哈希衝突是避免不了的，就算咱們項目中用到的 MD5 加密也沒法避免這種狀況，但能作的把這種狀況機率降到最低。在咱們下降機率的時候同時增長了其餘的開支。有種像時間換空間，空間換時間思想的意思。

什麼是哈希衝突？

什麼是哈希衝突？舉個例子，好比咱們往 5 個桶裏放 6 個小球，每一個桶中規定只能放一個，那剩下的一個不得不放入其中一個桶中，這就是所謂的哈希衝突。

難道沒有更好的方法解決哈希衝突嗎？有的，可是並不能徹底解決，而是經過其餘的開銷來下降衝突的機率。

哈希衝突的解決辦法

咱們共有兩種解決辦法，開放尋址法和拉鍊法（又叫鏈表法）。

5.1

開發尋址法

開發尋址的法的原理就是若是咱們發生了哈希衝突，也就是說經過散列函數得出的散列值相同，咱們就從新探測一個位置，將數據存儲。那如何進行探測呢？

線性探測

所謂的線性探測，就是一個一個的進行探測以下圖動畫，在散列表中插入一個元素：

查找元素也是一樣的道理，若是在散列表中查找的元素和咱們要查找的元素相同，則直接取出，不然經過線性探測，一個一個去查找，直到沒有查找到位置。

對於刪除元素呢？這就比較麻煩一點，由於咱們刪除元素以後，再進行插入元素或者查找元素就出現位置空缺了，沒法完成正常的操做了，因此咱們刪除元素規定不能將元素進行真正的刪除，而是作一個標記，若是查找元素，遇到該標記則繼續查找。

二次探測

上邊咱們是進行線性查找，二次探測就是每次探測都是原來的平方探測。

這兩種方式只是方式上的不一樣，若是散列表的空間不足時，產生的哈希衝突仍是很大機率的。咱們一般用一個閥值來表示散列表中剩餘空間的大小，咱們稱這個閥值爲裝載因子。（裝載因子 = 元素個數 / 散列表的大小）。

5.2

拉鍊法

咱們除了開放尋址法外，咱們還可使用拉鍊法來解決哈希衝突，所謂的拉鍊法就是鏈表這個數據結構。

若是咱們經過「鍵」獲得的哈希值相同的時候，也就是衝突的時候，咱們會在該散列表中對應的位置加一條鏈表，若是再衝突，咱們繼續往對應的鏈表中添加元素。

若是咱們查找、刪除元素的時候，獲得的哈希值沒有，則在對應的單鏈表中進行查找。

小結

咱們上邊分享了散列表的基本常識，回到咱們開篇的問題上去，文本編輯器是如何檢查英文單詞出錯的呢？

牛津詞典的單詞一共 75 萬左右，若是不歸類、不分義，經常使用的英語單詞一共 25 萬左右。假設一個單詞平均佔 10 個字節，25 萬單詞四捨五入湊個整數大約 3 M。就算是 75 萬單詞，也就是 8 M。咱們用散列表進行存儲，放到內存中。

當咱們飛速的打着字時，計算機就會拿着你輸入的單詞去散列表中的查找，由於散列表就是數組的演變，查詢一個元素的時間複雜度爲O(1)。若是能夠查找到，則存在該單詞，就不會有報錯信息。不然，提示錯誤，出現下滑波浪線，提示用戶修改錯誤的單詞。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。