python-字符編碼

時間 2019-12-12

標籤 python 字符編碼欄目 Python 简体版

原文原文鏈接

1. 變量\字符編碼
　　　Variables are used to store information to be referenced and manipulated in a computer program. They also provide a way of labeling data with a descriptive name, so our programs can be understood more clearly by the reader and ourselves. It is helpful to think of variables as containers that hold information. Their sole purpose is to label and store data in memory. This data can then be used throughout your program.
　　聲明變量python

#_*_coding:utf-8_*_程序員

name = "alex li"ide

　　上述代碼聲明瞭一個變量，變量名爲：name，變量name的值爲：「alex li」
　　變量定義的規則：
　　　　• 變量名只能是字母、數字或下劃線的任意組合
　　　　• 變量名的第一個字符不能是數字
　　　　• 如下關鍵字不能聲明爲變量名
　　　　　　['and', 'as', 'assert', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'exec', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'not', 'or', 'pass', 'print', 'raise', 'return', 'try', 'while', 'with', 'yield']
　　變量的賦值：優化

name = "alex li"
name2 = name編碼

print(name,name2)spa

name = "Jack"設計

print("What is the value of name2 now?")code

2. 字符編碼
　　python解釋器在加載 .py 文件中的代碼時，會對內容進行編碼（默認ascill）orm

　　ASCII（American Standard Code for Information Interchange，美國標準信息交換代碼）是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其餘西歐語言，其最多隻能用 8 位來表示（一個字節），即：2**8 = 256-1，因此，ASCII碼最多隻能表示 255 個符號。blog

　　關於中文

　　爲了處理漢字，程序員設計了用於簡體中文的GB2312和用於繁體中文的big5。

　　GB2312(1980年)一共收錄了7445個字符，包括6763個漢字和682個其它符號。漢字區的內碼範圍高字節從B0-F7，低字節從A1-FE，佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。

　　GB2312 支持的漢字太少。1995年的漢字擴展規範GBK1.0收錄了21886個符號，它分爲漢字區和圖形符號區。漢字區包括21003個字符。2000年的 GB18030是取代GBK1.0的正式國家標準。該標準收錄了27484個漢字，同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。如今的PC平臺必須支持GB18030，對嵌入式產品暫不做要求。因此手機、MP3通常只支持GB2312。

　　從ASCII、GB23十二、GBK 到GB18030，這些編碼方法是向下兼容的，即同一個字符在這些方案中老是有相同的編碼，後面的標準支持更多的字符。在這些編碼中，英文和中文能夠統一地處理。區分中文編碼的方法是高字節的最高位不爲0。按照程序員的稱呼，GB23十二、GBK到GB18030都屬於雙字節字符集 (DBCS)。

　　有的中文Windows的缺省內碼仍是GBK，能夠經過GB18030升級包升級到GB18030。不過GB18030相對GBK增長的字符，普通人是很難用到的，一般咱們仍是用GBK指代中文Windows內碼。

　　顯然ASCII碼沒法將世界上的各類文字和符號所有表示，因此，就須要新出一種能夠表明全部字符和符號的編碼，即：Unicode

　　Unicode（統一碼、萬國碼、單一碼）是一種在計算機上使用的字符編碼。Unicode 是爲了解決傳統的字符編碼方案的侷限而產生的，它爲每種語言中的每一個字符設定了統一而且惟一的二進制編碼，規定雖有的字符和符號最少由 16 位來表示（2個字節），即：2 **16 = 65536，
　　注：此處說的的是最少2個字節，可能更多

　　UTF-8，是對Unicode編碼的壓縮和優化，他再也不使用最少使用2個字節，而是將全部的字符和符號進行分類：ascii碼中的內容用1個字節保存、歐洲的字符用2個字節保存，東亞的字符用3個字節保存...

　　因此，python解釋器在加載 .py 文件中的代碼時，會對內容進行編碼（默認ascill），若是是以下代碼的話：

　　報錯：ascii碼沒法表示中文

#!/usr/bin/env python
# Author:shichao
# File: .py

print "你好，世界"

　　改正：應該顯示的告訴python解釋器，用什麼編碼來執行源代碼，即：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Author:shichao
# File: .py

print ("你好,世界")

　　註釋：

當行註釋：# 被註釋內容多行註釋：""" 被註釋內容 """