foreach是PHP中很經常使用的一個用做數組循環的控制語句。
由於它的方便和易用,天然也就在後端隱藏着很複雜的具體實現方式(對用戶透明)
今天,咱們就來一塊兒分析分析,foreach是如何實現數組(對象)的遍歷的。
本節內容涉及到較多編譯原理(lex and yacc)的知識,因此若是您以爲看不太懂,能夠先找相關的資料看看。php
咱們知道PHP是一個腳本語言,也就是說,用戶編寫的PHP代碼最終都是會被PHP解釋器解釋執行,
特別的,對於PHP來講,全部的用戶編寫的PHP代碼,都會被翻譯成PHP的虛擬機ZE的虛擬指令(OPCODES)來執行(參看:深刻理解PHP原理之Opcodes).html
不論細節的話,就是說,咱們所編寫的任何PHP腳本,都會最終被翻譯成一條條的指令,從而根據指令,由相應的C編寫的函數來執行。node
那麼foreach會被翻譯成什麼樣子呢?算法
- foreach($arr as $key => $val){
- echo $key . '=>' . $val . "\n";
- }
在詞法分析階段,foreach會被識別爲一個TOKEN:T_FOREACH,
在語法分析階段,會被規則:express
- unticked_statement:
-
- | T_FOREACH '(' variable T_AS
- { zend_do_foreach_begin(&$1, &$2, &$3, &$4, 1 TSRMLS_CC); }
- foreach_variable foreach_optional_arg ')' { zend_do_foreach_cont(&$1, &$2, &$4, &$6, &$7 TSRMLS_CC); }
- foreach_statement { zend_do_foreach_end(&$1, &$4 TSRMLS_CC); }
- | T_FOREACH '(' expr_without_variable T_AS
- { zend_do_foreach_begin(&$1, &$2, &$3, &$4, 0 TSRMLS_CC); }
- variable foreach_optional_arg ')' { zend_check_writable_variable(&$6); zend_do_foreach_cont(&$1, &$2, &$4, &$6, &$7 TSRMLS_CC); }
- foreach_statement { zend_do_foreach_end(&$1, &$4 TSRMLS_CC); }
-
- ;
仔細分析這段語法規則,咱們能夠發現,對於:
foreach($arr as $key => $val){
echo $key . ‘=>’ . $val .」\n」;
}後端
會被分析爲:數組
- T_FOREACH '(' variable T_AS { zend_do_foreach_begin('foreach', '(', $arr, 'as', 1 TSRMLS_CC); }
- foreach_variable foreach_optional_arg(T_DOUBLE_ARROW foreach_variable) ')' { zend_do_foreach_cont('foreach', '(', 'as', $key, $val TSRMLS_CC); }
- foreach_satement {zend_do_foreach_end('foreach', 'as');}
而後,讓咱們來看看foreach_statement:
它其實就是一個代碼塊,體現了咱們的 echo $key . ‘=>’ . $val .」\n」;
T_ECHO expr;app
顯然,實現foreach的核心就是以下3個函數:
zend_do_foreach_begin
zend_do_foreach_cont
zend_do_foreach_endwordpress
其中,zend_do_foreach_begin (代碼太長,直接寫僞碼) 主要作了:
1. 記錄當前的opline行數(爲之後跳轉而記錄)
2. 對數組進行RESET(講內部指針指向第一個元素)
3. 獲取臨時變量 ($val)
4. 設置獲取變量的OPCODE FE_FETCH,結果存第3步的臨時變量
4. 記錄獲取變量的OPCODES的行數函數
而對於 zend_do_foreach_cont來講:
1. 根據foreach_variable的u.EA.type來判斷是否引用
2. 根據是否引用來調整zend_do_foreach_begin中生成的FE_FETCH方式
3. 根據zend_do_foreach_begin中記錄的取變量的OPCODES的行數,來初始化循環(主要處理在循環內部的循環:do_begin_loop)
最後zend_do_foreach_end:
1. 根據zend_do_foreach_begin中記錄的行數信息,設置ZEND_JMP OPCODES
2. 根據當前行數,設置循環體下一條opline, 用以跳出循環
3. 結束循環(處理循環內循環:do_end_loop)
4. 清理臨時變量
固然, 在zend_do_foreach_cont 和 zend_do_foreach_end之間 會在語法分析階段被填充foreach_satement的語句代碼。
這樣,就實現了foreach的OPCODES line。
好比對於咱們開頭的實例代碼,最終生成的OPCODES是:
- filename: /home/huixinchen/foreach.php
- function name: (null)
- number of ops: 17
- compiled vars: !0 = $arr, !1 = $key, !2 = $val
- line
- -------------------------------------------------------------------------------
- 2 0 SEND_VAL 1
- 1 SEND_VAL 100
- 2 DO_FCALL 2 'range'
- 3 ASSIGN !0, $0
- 3 4 FE_RESET $2 !0, ->14
- 5 FE_FETCH $3 $2, ->14
- 6 ZEND_OP_DATA ~5
- 7 ASSIGN !2, $3
- 8 ASSIGN !1, ~5
- 4 9 CONCAT ~7 !1, '-'
- 10 CONCAT ~8 ~7, !2
- 11 CONCAT ~9 ~8, '%0A'
- 12 ECHO ~9
- 5 13 JMP ->5
- 14 SWITCH_FREE $2
- 7 15 RETURN 1
- 16* ZEND_HANDLE_EXCEPTION
咱們注意到FE_FETCH的op2的操做數是14,也就是JMP後一條opline,也就是說,在獲取完最後一個數組元素之後,FE_FETCH失敗的狀況下,會跳到第14行opline,從而實現了循環的結束。
而15行opline的op1的操做數是指向了FE_FETCH,也就是無條件跳轉到第5行opline,從而實現了循環。
附錄:
- void zend_do_foreach_begin(znode *foreach_token, znode *open_brackets_token, znode *array, znode *as_token, int variable TSRMLS_DC)
- {
- zend_op *opline;
- zend_bool is_variable;
- zend_bool push_container = 0;
- zend_op dummy_opline;
-
- if (variable) {
-
- if (zend_is_function_or_method_call(array)) {
-
- is_variable = 0;
- } else {
- is_variable = 1;
- }
-
- open_brackets_token->u.opline_num = get_next_op_number(CG(active_op_array));
- zend_do_end_variable_parse(BP_VAR_W, 0 TSRMLS_CC);
- if (CG(active_op_array)->last > 0 &&
- CG(active_op_array)->opcodes[CG(active_op_array)->last-1].opcode == ZEND_FETCH_OBJ_W) {
-
- if (CG(active_op_array)->opcodes[CG(active_op_array)->last-1].op1.op_type == IS_VAR) {
- CG(active_op_array)->opcodes[CG(active_op_array)->last-1].extended_value |= ZEND_FETCH_ADD_LOCK;
- push_container = 1;
- }
- }
- } else {
- is_variable = 0;
- open_brackets_token->u.opline_num = get_next_op_number(CG(active_op_array));
- }
-
- foreach_token->u.opline_num = get_next_op_number(CG(active_op_array));
-
- opline = get_next_op(CG(active_op_array) TSRMLS_CC);
-
- opline->opcode = ZEND_FE_RESET;
- opline->result.op_type = IS_VAR;
- opline->result.u.var = get_temporary_variable(CG(active_op_array));
- opline->op1 = *array;
- SET_UNUSED(opline->op2);
- opline->extended_value = is_variable ? ZEND_FE_RESET_VARIABLE : 0;
-
- dummy_opline.result = opline->result;
- if (push_container) {
- dummy_opline.op1 = CG(active_op_array)->opcodes[CG(active_op_array)->last-2].op1;
- } else {
- znode tmp;
-
- tmp.op_type = IS_UNUSED;
- dummy_opline.op1 = tmp;
- }
- zend_stack_push(&CG(foreach_copy_stack), (void *) &dummy_opline, sizeof(zend_op));
-
- as_token->u.opline_num = get_next_op_number(CG(active_op_array));
-
- opline = get_next_op(CG(active_op_array) TSRMLS_CC);
- opline->opcode = ZEND_FE_FETCH;
- opline->result.op_type = IS_VAR;
- opline->result.u.var = get_temporary_variable(CG(active_op_array));
- opline->op1 = dummy_opline.result;
- opline->extended_value = 0;
- SET_UNUSED(opline->op2);
-
- opline = get_next_op(CG(active_op_array) TSRMLS_CC);
- opline->opcode = ZEND_OP_DATA;
- SET_UNUSED(opline->op1);
- SET_UNUSED(opline->op2);
- SET_UNUSED(opline->result);
- }
- void zend_do_foreach_cont(znode *foreach_token, const znode *open_brackets_token, const znode *as_token, znode *value, znode *key TSRMLS_DC)
- {
- zend_op *opline;
- znode dummy, value_node;
- zend_bool assign_by_ref=0;
-
- opline = &CG(active_op_array)->opcodes[as_token->u.opline_num];
- if (key->op_type != IS_UNUSED) {
- znode *tmp;
-
- tmp = key;
- key = value;
- value = tmp;
-
- opline->extended_value |= ZEND_FE_FETCH_WITH_KEY;
- }
-
- if ((key->op_type != IS_UNUSED) && (key->u.EA.type & ZEND_PARSED_REFERENCE_VARIABLE)) {
-
- zend_error(E_COMPILE_ERROR, "Key element cannot be a reference");
- }
-
- if (value->u.EA.type & ZEND_PARSED_REFERENCE_VARIABLE) {
-
- assign_by_ref = 1;
- if (!(opline-1)->extended_value) {
-
- zend_error(E_COMPILE_ERROR, "Cannot create references to elements of a temporary array expression");
- }
-
- opline->extended_value |= ZEND_FE_FETCH_BYREF;
- CG(active_op_array)->opcodes[foreach_token->u.opline_num].extended_value |= ZEND_FE_RESET_REFERENCE;
- } else {
- zend_op *foreach_copy;
- zend_op *fetch = &CG(active_op_array)->opcodes[foreach_token->u.opline_num];
- zend_op *end = &CG(active_op_array)->opcodes[open_brackets_token->u.opline_num];
-
-
- fetch->extended_value = 0;
- while (fetch != end) {
- --fetch;
- if (fetch->opcode == ZEND_FETCH_DIM_W && fetch->op2.op_type == IS_UNUSED) {
- zend_error(E_COMPILE_ERROR, "Cannot use [] for reading");
- }
- fetch->opcode -= 3;
- }
-
-
- zend_stack_top(&CG(foreach_copy_stack), (void **) &foreach_copy);
- foreach_copy->op1.op_type = IS_UNUSED;
- }
-
- value_node = opline->result;
-
- if (assign_by_ref) {
- zend_do_end_variable_parse(value, BP_VAR_W, 0 TSRMLS_CC);
- zend_do_assign_ref(NULL, value, &value_node TSRMLS_CC);
- } else {
- zend_do_assign(&dummy, value, &value_node TSRMLS_CC);
- zend_do_free(&dummy TSRMLS_CC);
- }
-
- if (key->op_type != IS_UNUSED) {
- znode key_node;
-
- opline = &CG(active_op_array)->opcodes[as_token->u.opline_num+1];
- opline->result.op_type = IS_TMP_VAR;
- opline->result.u.EA.type = 0;
- opline->result.u.opline_num = get_temporary_variable(CG(active_op_array));
- key_node = opline->result;
-
- zend_do_assign(&dummy, key, &key_node TSRMLS_CC);
- zend_do_free(&dummy TSRMLS_CC);
- }
-
- do_begin_loop(TSRMLS_C);
- INC_BPC(CG(active_op_array));
- }
- void zend_do_foreach_end(znode *foreach_token, znode *as_token TSRMLS_DC)
- {
- zend_op *container_ptr;
- zend_op *opline = get_next_op(CG(active_op_array) TSRMLS_CC);
-
- opline->opcode = ZEND_JMP;
- opline->op1.u.opline_num = as_token->u.opline_num;
- SET_UNUSED(opline->op1);
- SET_UNUSED(opline->op2);
-
- CG(active_op_array)->opcodes[foreach_token->u.opline_num].op2.u.opline_num = get_next_op_number(CG(active_op_array));
- CG(active_op_array)->opcodes[as_token->u.opline_num].op2.u.opline_num = get_next_op_number(CG(active_op_array));
-
- do_end_loop(as_token->u.opline_num, 1 TSRMLS_CC);
-
- zend_stack_top(&CG(foreach_copy_stack), (void **) &container_ptr);
- generate_free_foreach_copy(container_ptr TSRMLS_CC);
- zend_stack_del_top(&CG(foreach_copy_stack));
-
- DEC_BPC(CG(active_op_array));
- }
常常會有人問我, PHP的數組, 若是用foreach來訪問, 遍歷的順序是固定的麼? 以什麼順序遍歷呢?
好比:
- <?php
- $arr['laruence'] = 'huixinchen';
- $arr['yahoo'] = 2007;
- $arr['baidu'] = 2008;
- foreach ($arr as $key => $val) {
- }
又好比:
- <?php
- $arr[2] = 'huixinchen';
- $arr[1] = 2007;
- $arr[0] = 2008;
- foreach ($arr as $key => $val) {
- }
要徹底瞭解清楚這個問題, 我想首先應該要你們瞭解PHP數組的內部實現結構………
PHP的數組
在PHP中, 數組是用一種HASH結構(HashTable)來實現的, PHP使用了一些機制, 使得能夠在O(1)的時間複雜度下實現數組的增刪, 並同時支持線性遍歷和隨機訪問.
以前的文章中也討論過, PHP的HASH算法, 基於此, 咱們作進一步的延伸.
認識HashTable以前, 首先讓咱們看看HashTable的結構定義, 我加了註釋方便你們理解:
- typedef struct _hashtable {
- uint nTableSize; /* 散列表大小, Hash值的區間 */
- uint nTableMask; /* 等於nTableSize -1, 用於快速定位 */
- uint nNumOfElements; /* HashTable中實際元素的個數 */
- ulong nNextFreeElement; /* 下個空閒可用位置的數字索引 */
- Bucket *pInternalPointer; /* 內部位置指針, 會被reset, current這些遍歷函數使用 */
- Bucket *pListHead; /* 頭元素, 用於線性遍歷 */
- Bucket *pListTail; /* 尾元素, 用於線性遍歷 */
- Bucket **arBuckets; /* 實際的存儲容器 */
- dtor_func_t pDestructor;/* 元素的析構函數(指針) */
- zend_bool persistent;
- unsigned char nApplyCount; /* 循環遍歷保護 */
- zend_bool bApplyProtection;
- #if ZEND_DEBUG
- int inconsistent;
- #endif
- } HashTable;
關於nApplyCount的意義, 咱們能夠經過一個例子來了解:
- <?php
- $arr = array(1,2,3,4,5,);
- $arr[] = &$arr;
-
- var_export($arr);
這個字段就是爲了防治循環引用致使的無限循環而設立的.
查看上面的結構, 能夠看出, 對於HashTable, 關鍵元素就是arBuckets了, 這個是實際存儲的容器, 讓咱們來看看它的結構定義:
- typedef struct bucket {
- ulong h; /* 數字索引/hash值 */
- uint nKeyLength; /* 字符索引的長度 */
- void *pData; /* 數據 */
- void *pDataPtr; /* 數據指針 */
- struct bucket *pListNext; /* 下一個元素, 用於線性遍歷 */
- struct bucket *pListLast; /* 上一個元素, 用於線性遍歷 */
- struct bucket *pNext; /* 處於同一個拉鍊中的下一個元素 */
- struct bucket *pLast; /* 處於同一拉鍊中的上一個元素 */
- char arKey[1]; /* 節省內存,方便初始化的技巧 */
- } Bucket;
咱們注意到, 最後一個元素, 這個是flexible array技巧, 能夠節省內存,和方便初始化的一種作法, 有興趣的朋友能夠google flexible array.
h是元素的Hash值,對於數字索引的元素,h爲直接索引值(經過nKeyLength=0來表示是數字索引).而對於字符串索引來講, 索引值保存在arKey中, 索引的長度保存在nKeyLength中.
在Bucket中,實際的數據是保存在pData指針指向的內存塊中,一般這個內存塊是系統另外分配的。但有一種狀況例外,就是當Bucket保存 的數據是一個指針時,HashTable將不會另外請求系統分配空間來保存這個指針,而是直接將該指針保存到pDataPtr中,而後再將pData指向本結構成員的地址。這樣能夠提升效率,減小內存碎片。由此咱們能夠看到PHP HashTable設計的精妙之處。若是Bucket中的數據不是一個指針,pDataPtr爲NULL(本段來自Altair<eniac2008@hotmail.com>的」Zend HashTable詳解」)
結合上面的HashTable結構, 咱們來講明下HashTable的總結構圖:
HashTable結構示意圖
HashTable的pListhHead指向線性列表形式下的第一個元素, 上圖中是元素1, pListTail指向的是最後一個元素0, 而對於每個元素pListNext就是紅色線條畫出的線性結構的下一個元素, 而pListLast是上一個元素.
pInternalPointer指向當前的內部指針的位置, 在對數組進行順序遍歷的時候, 這個指針指明瞭當前的元素.
當在線性(順序)遍歷的時候, 就會從pListHead開始, 順着Bucket中的pListNext/pListLast, 根據移動pInternalPointer, 來實現對全部元素的線性遍歷.
好比, 對於foreach, 若是咱們查看它生成的opcode序列, 咱們能夠發現, 在foreach以前, 會首先有個FE_RESET來重置數組的內部指針, 也就是pInternalPointer(關於foreach能夠參看深刻理解PHP原理之foreach), 而後經過每次FE_FETCH來遞增pInternalPointer,從而實現順序遍歷.
相似的, 當咱們使用, each/next系列函數來遍歷的時候, 也是經過移動數組的內部指針而實現了順序遍歷, 這裏有一個問題, 好比:
- <?php
- $arr = array(1,2,3,4,5);
- foreach ($arr as $v) {
- }
-
- while (list($key, $v) = each($arr)) {
- }
- ?>
瞭解到我剛纔介紹的知識, 那麼這個問題也就很明朗了, 由於foreach會自動reset, 而while這塊不會reset, 因此在foreach結束之後, pInternalPointer指向數組最末端, while語句塊固然訪問不到了, 解決的辦法就是在each以前, 先reset數組的內部指針.
而在隨機訪問的時候, 就會經過hash值肯定在hash數組中的頭指針位置, 而後經過pNext/pLast來找到特色元素.
增長元素的時候, 元素會插在相同Hash元素鏈的頭部和線性列表的尾部. 也就是說, 元素在線性遍歷的時候是根據插入的前後順序來遍歷的, 這個特殊的設計使得在PHP中,當使用數字索引時, 元素的前後順序是由添加的順序決定的,而不是索引順序.
也就是說, PHP中遍歷數組的順序, 是和元素的添加前後相關的, 那麼, 如今咱們就很清楚的知道, 文章開頭的問題的輸出是:
- huixinchen
- 2007
- 2008
因此, 若是你想在數字索引的數組中按照索引大小遍歷, 那麼你就應該使用for, 而不是foreach
- for($i=0,$l=count($arr); $i<$l; $i++) {
-
- }