Python學習日記day4 字符編碼

1.內存和硬盤都是用來存儲的。node

CPU:速度快python

硬盤:永久保存編程

2.文本編輯器存取文件的原理(nodepad++,pycharm)網絡

   打開編輯器就能夠啓動一個進程,是在內存中的,因此在編輯器編寫的內容也都是存放在內存中的,斷電後數據就丟失了。於是須要保存在硬盤上,點擊保存按鈕或快捷鍵,就把內存中的數據保存到了硬盤上。在這一點上,咱們編寫的py文件(沒有執行時),跟編寫的其餘文件沒有什麼區別,都只是編寫一堆字符而已。編程語言

3.python解釋器執行py文件的原理,例如python  test.py編輯器

  第一階段:python解釋器啓動,此時就至關於啓動了一個文本編輯器編碼

  第二階段:python解釋器至關於文本編輯器,去打開test.py,從硬盤上將test.py的文件內容讀入到內存中code

  第三階段:python解釋器執行剛剛加載到內存中的test.py的代碼(在該階段,即執行時,纔會識別python的語法,執行到字符串時,會開闢內存空間存放字符串)對象

總結:python解釋器與文本編輯器的異同進程

相同點:python解釋器是解釋執行文件內容的,於是python解釋器具有讀py文件的功能,這一點與文本編輯器同樣

不一樣點:文本編輯器將文件內容讀入內存後,是爲了顯示/編輯,而python解釋器將文件內容讀入內存後,是爲了執行(識別python的語法)

4.什麼是編碼

  編碼是信息從一種形式或格式轉換爲另外一種形式的過程也稱爲計算機編程語言的代碼簡稱編碼。用預先規定的方法將文字、數字或其它對象編成數碼,或將信息、數據轉換成規定的電脈衝信號。編碼在電子計算機電視、遙控和通信等方面普遍使用。編碼是信息從一種形式或格式轉換爲另外一種形式的過程。解碼,是編碼的逆過程。

5.如下兩個場景涉及到字符編碼的問題:

  1.一個python文件中的內容是由一堆字符組成的(python文件未執行時)

  2.python中的數據類型字符串是由一串字符組成的(python文件執行時)

6.字符編碼的發展史

  

階段一:現代計算機起源於美國,最先誕生也是基於英文考慮的ASCII

      ASCII:一個Bytes表明一個字符(英文字符/鍵盤上的全部其餘字符),1Bytes=8bit,8bit能夠表示0-2**8-1種變化,便可以表示256個字符

    ASCII最初只用了後七位,127個數字,已經徹底可以表明鍵盤上全部的字符了(英文字符/鍵盤的全部其餘字符)

    後來爲了將拉丁文也編碼進了ASCII表,將最高位也佔用了

階段二:爲了知足中文,中國人定製了GBK

  GBK:2Bytes表明一個字符,爲了知足其餘國家,各個國家紛紛定製了本身的編碼,日本把日文編到Shift_JIS裏,韓國把韓文編到Euc-kr

階段三:各國有各國的標準,就會不可避免地出現衝突,結果就是,在多語言混合的文本中,顯示出來會有亂碼。

因而產生了unicode, 統一用2Bytes表明一個字符, 2**16-1=65535,可表明6萬多個字符,於是兼容萬國語言

但對於通篇都是英文的文原本說,這種編碼方式無疑是多了一倍的存儲空間(二進制最終都是以電或者磁的方式存儲到存儲介質中的)

因而產生了UTF-8,對英文字符只用1Bytes表示,對中文字符用3Bytes

須要強調的是:

  unicode:簡單粗暴,多有的字符都是2Bytes,優勢是字符--數字的轉換速度快;缺點是佔用空間大。

  utf-8:精準,可變長,優勢是節省空間;缺點是轉換速度慢,由於每次轉換都須要計算出須要多長Bytes纔可以準確表示。

1.內存中使用的編碼是unicode,用空間換時間(程序都須要加載到內存才能運行,於是內存應該是越快越好)

2.硬盤中或網絡傳輸用utf-8,保證數據傳輸的穩定性。

7、字符編碼轉換 

在python2中有兩種字符串類型str和unicode

  在python2中,str就是編碼後的結果bytes,因此在Python2中,unicode字符編碼的結果就是str/bytes

 

對於unicode格式的數據來講,不管怎麼打印,都不會亂碼

python3中的字符串與python2中的u'字符串',都是unicode,因此不管如何打印都不會亂碼

在python3中也有兩種字符串類型str和bytes\

  str是unicode

encoude()#編碼

decode()#解碼

相關文章
相關標籤/搜索