Python源碼理解: '+=' 和 'xx = xx + xx'的區別

前菜

在咱們使用Python的過程, 不少時候會用到+運算, 例如:python

a = 1 + 2
print a 

# 輸出
3

不光在加法中使用, 在字符串的拼接也一樣發揮這重要的做用, 例如:segmentfault

a = 'abc' + 'efg'
print a

# 輸出
abcefg

一樣的, 在列表中也能使用, 例如:函數

a = [1, 2, 3] + [4, 5, 6]
print a

# 輸出
[1, 2, 3, 4, 5, 6]

爲何上面不一樣的對象執行同一個+會有不一樣的效果呢? 這就涉及到+的重載, 然而這不是本文要討論的重點, 上面的只是前菜而已~~~code

正文

先看一個例子:對象

num = 123
num = num + 4
print num

# 輸出
127

這段代碼的用途很明確, 就是一個簡單的數字相加, 可是這樣彷佛很繁瑣, 一點都Pythonic, 因而就有了下面的代碼:ip

num = 123
num += 4
print num

# 輸出
127

哈, 這樣就很Pythonic了! 可是這種用法真的就是這麼好麼? 不必定. 看例子:字符串

# coding: utf8
l = [1, 2]
l = l + [3, 4]
print l

# 輸出
[1, 2, 3, 4]

# ------------------------------------------

l = [1, 2]
l += [3, 4]  # 列表的+被重載了, 左右操做數必須都是iterable對象, 不然會報錯
print l

# 輸出
[1, 2, 3, 4]

看起來結果都同樣嘛~, 可是真的同樣嗎? 咱們改下代碼再看下:get

# coding: utf8
l = [1, 2]
print 'l以前的id: ', id(l)
l = l + [3, 4]
print 'l以後的id: ', id(l)

# 輸出
l以前的id:  40270024
l以後的id:  40389000

# ------------------------------------------

l = [1, 2]
print 'l以前的id: ', id(l)
l += [3, 4]  # 列表的+被重載了, 左右操做數必須都是iterable對象, 不然會報錯
print 'l以後的id: ', id(l)

# 輸出
l以前的id:  40270024
l以後的id:  40270024

看到結果了嗎? 雖然結果同樣, 可是經過id的值表示, 運算先後, 第一種方法對象是不一樣的了, 而第二種仍是同一個對象! 爲何會這樣?源碼

結果分析

先來看看字節碼:string

[root@test1 ~]# cat 2.py 
# coding: utf8
l = [1, 2]
l = l + [3, 4]
print l


l = [1, 2]
l += [3, 4]  
print l
[root@test1 ~]# python -m dis 2.py 
  2           0 LOAD_CONST               0 (1)
              3 LOAD_CONST               1 (2)
              6 BUILD_LIST               2
              9 STORE_NAME               0 (l)

  3          12 LOAD_NAME                0 (l)
             15 LOAD_CONST               2 (3)
             18 LOAD_CONST               3 (4)
             21 BUILD_LIST               2
             24 BINARY_ADD          
             25 STORE_NAME               0 (l)

  4          28 LOAD_NAME                0 (l)
             31 PRINT_ITEM          
             32 PRINT_NEWLINE       

  7          33 LOAD_CONST               0 (1)
             36 LOAD_CONST               1 (2)
             39 BUILD_LIST               2
             42 STORE_NAME               0 (l)

  8          45 LOAD_NAME                0 (l)
             48 LOAD_CONST               2 (3)
             51 LOAD_CONST               3 (4)
             54 BUILD_LIST               2
             57 INPLACE_ADD         
             58 STORE_NAME               0 (l)

  9          61 LOAD_NAME                0 (l)
             64 PRINT_ITEM          
             65 PRINT_NEWLINE       
             66 LOAD_CONST               4 (None)
             69 RETURN_VALUE

在上訴的字節碼, 咱們着重須要看的是兩個: BINARY_ADDINPLACE_ADD! 很明顯:
l = l + [3, 4, 5]    這種背後就是BINARY_ADD
l += [3, 4, 5]     這種背後就是INPLACE_ADD

深刻理解

雖然兩個單詞差很遠, 但其實兩個的做用是很相似的, 最起碼前面一部分是, 爲何這樣說, 請看源碼:

# 取自ceva.c
# BINARY_ADD
TARGET_NOARG(BINARY_ADD)
        {
            w = POP();
            v = TOP();
            if (PyInt_CheckExact(v) && PyInt_CheckExact(w)) {    // 檢查左右操做數是否 int 類型
                /* INLINE: int + int */
                register long a, b, i;
                a = PyInt_AS_LONG(v);
                b = PyInt_AS_LONG(w);
                /* cast to avoid undefined behaviour
                   on overflow */
                i = (long)((unsigned long)a + b);
                if ((i^a) < 0 && (i^b) < 0)
                    goto slow_add;
                x = PyInt_FromLong(i);
            }
            else if (PyString_CheckExact(v) &&
                     PyString_CheckExact(w)) {                   // 檢查左右操做數是否 string 類型
                x = string_concatenate(v, w, f, next_instr);
                /* string_concatenate consumed the ref to v */
                goto skip_decref_vx;
            }
            else {
              slow_add:                                          // 二者都不是, 請走這裏~
                x = PyNumber_Add(v, w);
            }
           ...(省略)


# INPLACE_ADD
TARGET_NOARG(INPLACE_ADD)
        {
            w = POP();
            v = TOP();
            if (PyInt_CheckExact(v) && PyInt_CheckExact(w)) {   // 檢查左右操做數是否 int 類型
                /* INLINE: int + int */
                register long a, b, i;
                a = PyInt_AS_LONG(v);
                b = PyInt_AS_LONG(w);
                i = a + b;
                if ((i^a) < 0 && (i^b) < 0)
                    goto slow_iadd;
                x = PyInt_FromLong(i);
            }
            else if (PyString_CheckExact(v) &&
                     PyString_CheckExact(w)) {                 // 檢查左右操做數是否 string 類型
                x = string_concatenate(v, w, f, next_instr);
                /* string_concatenate consumed the ref to v */
                goto skip_decref_v;
            }
            else {
              slow_iadd:                           
                x = PyNumber_InPlaceAdd(v, w);                 // 二者都不是, 請走這裏~
            }
           ... (省略)

從上面能夠看出, 不論是BINARY_ADD 仍是 INPLACE_ADD, 他們都會有以下相同的操做:

檢查是否是都是`int`類型, 若是是, 直接返回兩個數值相加的結果
檢查是否是都是`string`類型, 若是是, 直接返回字符串拼接的結果

由於二者的行爲真的很相似, 因此在這着重講INPLACE_ADD, 對BINARY_ADD感興趣的童鞋能夠在源碼文件: abstract.c, 搜索: PyNumber_Add.實際上也就少了對列表之類對象的操做而已.

那咱們接着繼續, 先貼個源碼:

PyObject *
PyNumber_InPlaceAdd(PyObject *v, PyObject *w)
{
    PyObject *result = binary_iop1(v, w, NB_SLOT(nb_inplace_add),     
                                   NB_SLOT(nb_add));
    if (result == Py_NotImplemented) {
        PySequenceMethods *m = v->ob_type->tp_as_sequence;
        Py_DECREF(result);
        if (m != NULL) {
            binaryfunc f = NULL;
            if (HASINPLACE(v))
                f = m->sq_inplace_concat;
            if (f == NULL)
                f = m->sq_concat;
            if (f != NULL)
                return (*f)(v, w);
        }
        result = binop_type_error(v, w, "+=");
    }
    return result;

INPLACE_ADD本質上是對應着abstract.c文件裏面的PyNumber_InPlaceAdd函數, 在這個函數中, 首先調用binary_iop1函數, 而後進而又調用了裏面的binary_op1函數, 這兩個函數很大一個篇幅, 都是針對ob_type->tp_as_number, 而咱們目前是list, 因此他們的大部分操做, 都和咱們的無關. 正由於無關, 因此這兩函數調用最後, 直接返回Py_NotImplemented, 而這個是用來幹嗎, 這個有大做用, 是列表相加的核心所在!

由於binary_iop1的調用結果是Py_NotImplemented, 因此下面的判斷成立, 開始尋找對象(也就是演示代碼中l對象)的ob_type->tp_as_sequence屬性.

由於咱們的對象是l(列表), 因此咱們須要去PyList_type需找真相:

# 取自: listobject.c
PyTypeObject PyList_Type = {
    ... (省略)
    &list_as_sequence,                          /* tp_as_sequence */
    ... (省略)
}

能夠看出, 其實也就是直接取list_as_sequence, 而這個是什麼呢? 實際上是一個結構體, 裏面存放了列表的部分功能函數.

static PySequenceMethods list_as_sequence = {
    (lenfunc)list_length,                       /* sq_length */
    (binaryfunc)list_concat,                    /* sq_concat */
    (ssizeargfunc)list_repeat,                  /* sq_repeat */
    (ssizeargfunc)list_item,                    /* sq_item */
    (ssizessizeargfunc)list_slice,              /* sq_slice */
    (ssizeobjargproc)list_ass_item,             /* sq_ass_item */
    (ssizessizeobjargproc)list_ass_slice,       /* sq_ass_slice */
    (objobjproc)list_contains,                  /* sq_contains */
    (binaryfunc)list_inplace_concat,            /* sq_inplace_concat */
    (ssizeargfunc)list_inplace_repeat,          /* sq_inplace_repeat */
};

接下來就是一個判斷, 判斷我們這個l對象是否有Py_TPFLAGS_HAVE_INPLACEOPS這個特性, 很明顯是有的, 因此就調用上步取到的結構體中的sq_inplace_concat函數, 那接下來呢? 確定就是看看這個函數是幹嗎的:

list_inplace_concat(PyListObject *self, PyObject *other)
{
    PyObject *result;

    result = listextend(self, other);    # 關鍵所在
    if (result == NULL)
        return result;
    Py_DECREF(result);
    Py_INCREF(self);
    return (PyObject *)self;
}

終於找到關鍵了, 原來最後就是調用這個listextend函數, 這個和咱們python層面的列表的extend方法很相似, 在這不細講了!

PyNumber_InPlaceAdd的執行調用過程, 簡單整理下來就是:

INPLACE_ADD(字節碼)
    -> PyNumber_InPlaceAdd
        -> 判斷是否數字: 若是是, 直接返回兩數相加
        -> 判斷是否字符串: 若是是, 直接返回`string_concatenate`的結果
        -> 都不是:
            -> binary_iop1 (判斷是否數字, 若是是則按照數字處理, 不然返回Py_NotImplemented)
                -> binary_iop (判斷是否數字, 若是是則按照數字處理, 不然返回Py_NotImplemented)
            -> 返回的結果是否 Py_NotImplemented:
                -> 是: 
                    -> 對象是否有Py_TPFLAGS_HAVE_INPLACEOPS:
                        -> 是: 調用對象的: sq_inplace_concat
                        -> 否: 調用對象的: sq_concat
                -> 否: 報錯

因此在上面的結果, 第二種代碼: l += [3,4,5], 咱們看到的id值並無改變, 就是由於+=經過sq_inplace_concat調用了列表的listextend函數, 而後致使新列表以追加的方式去處理.

結論

如今咱們大概明白了+=其實是幹嗎了: 它應該能算是一個增強版的+, 由於它比+多了一個寫回自己的功能.不過是否可以寫回自己, 仍是得看對象自身是否支持, 也就是說是否具有Py_NotImplemented標識, 是否支持sq_inplace_concat, 若是具有, 才能實現, 不然, 也就是和 + 效果同樣而已.

歡迎各位大神指點交流,轉載請註明來源: https://segmentfault.com/a/11...

相關文章
相關標籤/搜索