PHP7 數組的底層實現

PHP 數組具備的特性

PHP 的數組是一種很是強大靈活的數據類型,在講它的底層實現以前,先看一下 PHP 的數組都具備哪些特性。php

  • 可使用數字或字符串做爲數組健值
$arr = [1 => 'ok', 'one' => 'hello'];
  • 可按順序讀取數組
foreach($arr as $key => $value){
    echo $arr[$key];
}
  • 可隨機讀取數組中的元素
$arr = [1 => 'ok', 'one' => 'hello', 'a' => 'world'];

echo $arr['one'];

echo current($arr);
  • 數組的長度是可變的
$arr = [1, 2, 3];

$arr[] = 4;

array_push($arr, 5);

正是基於這些特性,咱們可使用 PHP 中的數組輕易的實現集合、棧、列表、字典等多種數據結構。那麼這些特性在底層是如何實現的呢? 這就得從數據結構提及了。git

數據結構

PHP 中的數組其實是一個有序映射。映射是一種把 values 關聯到 keys 的類型。

PHP 數組的底層實現是散列表(也叫 hashTable ),散列表是根據鍵(Key)直接訪問內存存儲位置的數據結構,它的key - value 之間存在一個映射函數,能夠根據 key 經過映射函數獲得的散列值直接索引到對應的 value 值,無需經過關鍵字比較,在理想狀況下,不考慮散列衝突,散列表的查找效率是很是高的,時間複雜度是 O(1)。github

從源碼中咱們能夠看到 zend_array 的結構以下:算法

typedef struct _zend_array zend_array;
typedef struct _zend_array hashTable;

struct _zend_array {
    zend_refcounted_h gc;
    union {
        struct {
            ZEND_ENDIAN_LOHI_4(
                    zend_uchar    flags,
                    zend_uchar    nApplyCount,
                    zend_uchar    nIteratorsCount,
                    zend_uchar    reserve)
        } v;
        uint32_t flags;
    } u;
    uint32_t          nTableMask; // 哈希值計算掩碼,等於nTableSize的負值(nTableMask = -nTableSize)
    Bucket           *arData;     // 存儲元素數組,指向第一個Bucket
    uint32_t          nNumUsed;   // 已用Bucket數(含失效的 Bucket)
    uint32_t          nNumOfElements; // 哈希表有效元素數
    uint32_t          nTableSize;     // 哈希表總大小,爲2的n次方(包括無效的元素)
    uint32_t          nInternalPointer; // 內部指針,用於遍歷
    zend_long         nNextFreeElement; // 下一個可用的數值索引,如:arr[] = 1;arr["a"] = 2;arr[] = 3;  則nNextFreeElement = 2;
    dtor_func_t       pDestructor;
};

該結構中的 Bucket 即儲存元素的數組,arData 指向數組的起始位置,使用映射函數對 key 值進行映射後能夠獲得偏移值,經過內存起始位置 + 偏移值便可在散列表中進行尋址操做。數組

Bucket 的數據結構以下:php7

typedef struct _Bucket {
    zval              val; // 存儲的具體 value,這裏是一個 zval,而不是一個指針
    zend_ulong        h;   // 數字 key 或字符串 key 的哈希值。用於查找時 key 的比較    
    zend_string      *key; // 當 key 值爲字符串時,指向該字符串對應的 zend_string(使用數字索引時該值爲 NULL),用於查找時 key 的比較
} Bucket;

到這裏有個問題出現了:存儲在散列表裏的元素是無序的,PHP 數組如何作到按順序讀取的呢?數據結構

答案是中間映射表,爲了實現散列表的有序性,PHP 爲其增長了一張中間映射表,該表是一個大小與 Bucket 相同的數組,數組中儲存整形數據,用於保存元素實際儲存的 Value 在 Bucekt 中的下標。Bucekt 中的數據是有序的,而中間映射表中的數據是無序的。函數

而經過映射函數映射後的散列值要在中間映射表的區間內,這就對映射函數提出了要求。性能

映射函數

PHP7 數組採用的映射方式:ui

nIndex = h | ht->nTableMask;

將 key 通過 time33 算法生成的哈希值 h 和 nTableMask 進行或運算便可得出映射表的下標,其中 nTableMask 數值爲 nTableSize 的負數。而且因爲 nTableSize 的值爲 2 的冪次方,因此 nTableMask 二進制位右側所有爲 0,保證了 h | ht->nTableMask 的取值範圍會在 [-nTableSize, -1] 之間,正好在映射表的下標範圍內。另外,用按位或運算的方法和其餘方法如取餘的方法相比運算速度較高,這個映射函數能夠說設計的很是巧妙了。

散列(哈希)衝突

不一樣鍵名的經過映射函數計算獲得的散列值有可能相同,此時便發生了散列衝突。

對於散列衝突有如下 4 種經常使用方法:

1.將散列值放到相鄰的最近地址裏

2.換個散列函數從新計算散列值

3.將衝突的散列值統一放到另外一個地方

4.在衝突位置構造一個單向鏈表,將散列值相同的元素放到相同槽位對應的鏈表中。這個方法叫鏈地址法,PHP 數組就是採用這個方法解決散列衝突的問題。

其具體實現是:將衝突的 Bucket 串成鏈表,這樣中間映射表映射出的就不是某一個元素,而是一個 Bucket 鏈表,經過散列函數定位到對應的 Bucket 鏈表時,須要遍歷鏈表,逐個對比 Key 值,繼而找到目標元素。而每一個 Bucket 之間的連接則是將原 value 的下標保存到新 value 的 zval.u2.next 裏,新 value 放在當前位置上,從而造成一個單向鏈表。

舉個例子:

當咱們訪問 $arr['key'] 的過程當中,假設首先經過散列運算得出映射表下標爲 -2 ,而後訪問映射表發現其內容指向 arData 數組下標爲 1 的元素。此時咱們將該元素的 key 和要訪問的鍵名相比較,發現二者並不相等,則該元素並不是咱們所想訪問的元素,而元素的 zval.u2.next 保存的值正是另外一個具備相同散列值的元素對應 arData 數組的下標,因此咱們能夠不斷經過 zval.u2.next 的值遍歷直到找到鍵名相同的元素。

擴容

PHP 的數組在底層實現了自動擴容機制,當插入一個元素且沒有空閒空間時,就會觸發自動擴容機制,擴容後再執行插入。

擴容的過程爲:

若是已刪除元素所佔比例達到閾值,則會移除已被邏輯刪除的 Bucket,而後將後面的 Bucket 向前補上空缺的 Bucket,由於 Bucket 的下標發生了變更,因此還須要更改每一個元素在中間映射表中儲存的實際下標值。

若是未達到閾值,PHP 則會申請一個大小是原數組兩倍的新數組,並將舊數組中的數據複製到新數組中,由於數組長度發生了改變,因此 key-value 的映射關係須要從新計算,這個步驟爲重建索引。

重建散列表

在刪除某一個數組元素時,會先使用標誌位對該元素進行邏輯刪除,即在刪除 value 時只是將 value 的 type 設置爲 IS_UNDEF,而不會當即刪除該元素所在的 Bucket,由於若是每次刪除元素馬上刪除 Bucket 的話,每次都須要進行排列操做,會形成沒必要要的性能開銷。

因此,當刪除元素達到必定數量或擴容後都須要重建散列表,即移除被標記爲刪除的 value。由於 value 在 Bucket 位置移動了或哈希數組 nTableSize 變化了致使 key 與 value 的映射關係改變,重建過程就是遍歷 Bucket 數組中的 value,而後從新計算映射值更新到散列表。


關於 PHP7 的數組底層實現就總結這麼些了,由於水平有限也沒法研究的十分詳盡清楚,若是有疑問或者不足之處歡迎提出~~

參考資料

《PHP7 的底層設計與源碼實現》

php7-internal

相關文章
相關標籤/搜索