Python中 '==' 與'is' 以及它們背後的故事

時間 2019-11-12

原文原文鏈接

摘要

　　比較判斷邏輯是在代碼中常常使用的，在Python中經常使用 '==' 和 is 來作比較判斷。python

== : 雙等號是用來比較變量所指向內存單元中的值是否相等，它只關心值，並不在乎值的內存地址，也就是說能夠是兩個不一樣內存地址的值相等。
is : 它用來比較兩個變量是否是指向同一個內存單元，雖然它也能夠比較值，可是它更加關心的是內存地址是否同樣，固然內存地址同樣值也就是同樣的。

關於整數

# 按照邏輯，下面的代碼很正常
>>> a = 1
>>> b = 1
>>> a == b
True
>>> a is b
True
>>> id(a)
1570522768
>>> id(b)
1570522768
# 下面就是顛覆認知的時刻
>>> a = 1000
>>> b = 1000
>>> a == b
True
>>> a is b
False
>>> id(a)
81183344
>>> id(b)
81183376

　　是的，兩個相同值的變量，內存地址不同了。固然產生這個現象的前提條件是用python命令行去執行，而不是用pycharm之類的編輯器。其根本緣由也就是python解釋器的問題，涉及到python的垃圾回收機制。上面現象的緣由是由於一個叫作小整數對象池的東西。緩存

　　 Python爲了優化速度，會把 [-5, 256] 之間的數據提早存放在小整數池中，若是程序使用到小整數池中的數據，是不會開闢新的內存空間去建立，而是指向對象池中的同一份數據，也就是說有N個變量等於1的話，那麼這N個變量的內存地址都會指向小整數池中的1位置。小整數池的使用是爲了不整數頻繁申請和銷燬內存空間。小整數池是提早創建好的，不會被垃圾回收。編輯器

　　當數據超出小整數池後，也就是範圍到了大整數對象池中了，系統每次都會申請一塊新內存來存儲數據，這個'is'不等於'=='的現象也就不存在了。函數

　　pycharm中，每次運行是全部代碼都加載到內存中，屬於一個總體，並不存在這個現象。性能

關於字符串　

# 先來個正常的
>>> a = 'qwe'
>>> b = 'qwe'
>>> a == b
True
>>> a is b
True
>>> id(a)
81797024
>>> id(b)
81797024
#  感受沒什麼變化，那就加長一些
>>> a = 'q' * 20
>>> b = 'q' * 20
>>> a is b
True
>>> a == b
True
# 在長點就不同了
>>> b = 'q' * 21
>>> a = 'q' * 21
>>> a is b
False
>>> a == b
True
>>> id(a)
81811696
>>> id(b)
81811600

　　產生緣由：Python的intern機制。優化

　　簡單理解有點像緩存的意思，當須要使用相同的字符串時（變量賦值），直接從緩存中拿出來用而不是從新建立，這樣能夠避免頻繁的建立和銷燬，提高效率，節約內存。缺點是拼接字符串，對字符串修改之類的影響性能。由於是不可變的，因此對字符串修改不是inplace操做，而是新建對象。這也就是拼接字符串的時候不建議是用 '+' 方法，而是推薦用join 函數，join函數是先計算出全部字符串的長度，而後一一拷貝，而只建立一次對象。每一個'+'方法都是建立一次新對象。當字符串長度超過20時，也不會使用intern機制。spa

　　並非全部的字符串都會採用intern機制。只包含下劃線，字母（包含大小寫），數字的字符串纔會被intern。空格和一些特殊字符都不在內。也就是說字符串中若是包含空格和其餘一些特殊符號（除去下劃線），python都不會應用intern機制，而是直接開闢新的內存空間去存儲。命令行

# 注意下面這種看似合理的字符串intern
>>> 'ab' + 'c' is 'abc'         #  這裏的字符串，'ab' + 'c' 是在complie time 求值的，被替換成了'abc'
True
>>> n1 = 'ab'
>>> n2 = 'abc'
>>> n1 + 'c' is n2               # n1 + 'c'  是在run-time拼接，致使沒有被自動intern
False
>>> n1 + 'c' is 'abc'
False
>>> n1 + 'c' == 'abc'
True
>>> n1 + 'c' == n2
True

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。