python正則中如何匹配漢字以及encode(‘utf-8’)和decode(‘utf-8’)的互轉

時間 2019-11-14

標籤 python 正則如何匹配漢字以及 encode utf decode 欄目 Python 简体版

原文原文鏈接

正則表達式：
　　[\u2E80-\u9FFF]+$ 匹配全部東亞區的語言
　　[\u4E00-\u9FFF]+$ 匹配簡體和繁體
　　[\u4E00-\u9FA5]+$ 匹配簡體
　　<input type="text" name="username" onkeyup="value=value.replace([\u4E00-\u9FA5]+$)">html

正則表達式速查表：https://www.jb51.net/shouce/jquery1.82/regexp.htmlpython

 1  1 # -*- coding:utf-8 -*-
 2  2 
 3  3 import re  4  4 
 5  5 '''
 6  6 python 3.5版本  7  7 正則匹配中文，固定形式：\u4E00-\u9FA5  8  8 '''
 9  9 
10 10 words = 'study in 山海大學'
11 11 regex_str = ".*?([\u4E00-\u9FA5]+大學)"
12 12 match_obj = re.match(regex_str, words) 13 13 if match_obj: 14 14     print(match_obj.group(1)) 15 15 
16 16 
17 17 結果：山海大學

這裏面表示的是一個正則表達式語句的啦，http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.htmljquery

Python添加對Unicode的支持，以Unicode表示的字符串用u’ABC’來表示。
字符串’xxx’雖然是ASCII編碼，但也能夠當作是UTF-8編碼，而u’xxx’則只能是Unicode編碼。正則表達式

把u’xxx’轉換爲UTF-8編碼的’xxx’用encode(‘utf-8’)方法。json

1 >>> u'ABC'.encode('utf-8') 2 'ABC'
3 >>> u'中文'.encode('utf-8') 4 '\xe4\xb8\xad\xe6\x96\x87

反過來，把UTF-8編碼表示的字符串’xxx’轉換爲Unicode字符串u’xxx’用decode(‘utf-8’)方法。編碼

1 >>> 'abc'.decode('utf-8') 2 u'abc'
3 >>> '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8') 4 u'\u4e2d\u6587'
5 >>> print '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8') 6 中文

因爲Python源代碼也是一個文本文件，因此，當你的源代碼中包含中文的時候，在保存源代碼時，就須要務必指定保存爲UTF-8編碼。當Python解釋器讀取源代碼時，爲了讓它按UTF-8編碼讀取，咱們一般在文件開頭寫上這兩行：spa

1 #!/usr/bin/env python
2 # -*- coding: utf-8 -*-

第一行註釋是爲了告訴Linux/OS X系統，這是一個Python可執行程序，Windows系統會忽略這個註釋；.net

第二行註釋是爲了告訴Python解釋器，按照UTF-8編碼讀取源代碼，不然，你在源代碼中寫的中文輸出可能會有亂碼。code

關於Python正則表達式匹配中文：

這裏邊重點用到了 r'[\u4e00-\u9fa5]+' 的正則規則，表示1到多個任意漢字。regexp

 1 import re  2 str=u"【心理箴言】現實是污濁的河流，要想接受污濁的河流而自身不被污染，咱們必須成爲大海。 =-=4845/.?'"
 3 # py2.7，因此字符串前加u，在正則表達式前也加u便可。
 4 # pattern =re.compile(u'[\u4e00-\u9fa5]')
 5 pattern =re.compile(r"[\u4e00-\u9fa5]+")  6 result=pattern.findall(str)  7 result1=re.findall(pattern,str)  8 for w in result:  9     print(w) 10 
11 str1='hjggj小vjjk明'
12 pat=re.compile(r'[\u4e00-\u9fa5]+') 13 result=pat.findall(str1) 14 print(result)