Python中文字符串截取

時間 2019-11-06

原文原文鏈接

 
   #-*- coding:utf8 -*- 
  
   s = u'中文截取' 
  
   s.decode('utf8')[0:3].encode('utf8') 
  
   # 結果u'中文截取

延伸閱讀：

UTF-8中的漢字佔用多少字節？

佔2個字節的：〇

佔3個字節的：基本等同於GBK，含21000多個漢字

佔4個字節的：中日韓超大字符集裏面的漢字，有5萬多個

一個UTF-8數字佔1個字節

一個UTF-8英文字母佔1個字節

在查找 UTF-8 編碼資料時發現，不少的帖子說的 UTF-8 編碼裏，一個漢字佔用3個字節，有的還作了個證實，大概是這樣的，建立一個沒有BOM的UTF-8編碼的文本文件，裏面保存了幾個漢字，而後查看文件的大小。我以爲這樣的證實沒有一點說服力，由於 UTF-8 是變長的，1-6個字節，少許的漢字檢測是不能說明全部的漢字都是的。

後來我又查看了字符映射表－漢語，找到了正確的答案，少數是漢字每一個佔用3個字節，多數佔用4個字節。

相關標籤/搜索