unicode漢字編碼

原來我使用的一直是 \u4e00-\u9fa5 ,今天在匹配中文標點的時候匹配不上,就查了一下相關資料,原來unicode跟中文有關的範圍還有好幾個。html

字符範圍表

1.標準CJK文字

範圍:\u3400-\u4DB5,\u4E00-\u9FA5,\u9FA6-\u9FBB,\uF900-\uFA2D,\uFA30-\uFA6A,\uFA70-\uFAD9 說明:一共有好幾個範圍,除 \u4e00-\u9fa5外 都不是很經常使用 參考地址:http://www.unicode.org/Public/UNIDATA/Unihan.htmlcode

2.全角ASCII、全角中英文標點、半寬片假名、半寬平假名、半寬韓文字母

範圍:\uFF00-\uFFEF 參考地址:http://www.unicode.org/charts/PDF/UFF00.pdfhtm

3.CJK部首補充

範圍:\u2E80-\u2EFF 參考地址:http://www.unicode.org/charts/PDF/U2E80.pdfci

4.CJK標點符號

範圍:\u3000-\u303F 參考地址:http://www.unicode.org/charts/PDF/U3000.pdfunicode

5.CJK筆劃

範圍:\u31C0-\u31EF 參考地址:http://www.unicode.org/charts/PDF/U31C0.pdfget

6.康熙部首

範圍:\u2F00-\u2FDF 參考地址:http://www.unicode.org/charts/PDF/U2F00.pdfit

7.漢字結構描述字符

範圍:\u2FF0-\u2FFF 參考地址:http://www.unicode.org/charts/PDF/U2FF0.pdfio

8.注音符號

範圍:\u3100-\u312F 參考地址:http://www.unicode.org/charts/PDF/U3100.pdfclass

9.注音符號(閩南語、客家語擴展)

範圍:\u31A0-\u31BF 參考地址:http://www.unicode.org/charts/PDF/U31A0.pdfpdf

10.日文平假名

範圍:\u3040-\u309F 參考地址:http://www.unicode.org/charts/PDF/U3040.pdf

11.日文片假名

範圍:\u30A0-\u30FF 參考地址:http://www.unicode.org/charts/PDF/U30A0.pdf

12.日文片假名拼音擴展

範圍:\u31F0-\u31FF 參考地址:http://www.unicode.org/charts/PDF/U31F0.pdf

13.韓文拼音

範圍:\uAC00-\uD7AF 參考地址:http://www.unicode.org/charts/PDF/UAC00.pdf

14.韓文字母

範圍:\u1100-\u11FF 參考地址:http://www.unicode.org/charts/PDF/U1100.pdf

15.韓文兼容字母

範圍:\u3130-\u318F 參考地址:http://www.unicode.org/charts/PDF/U3130.pdf

16.易經六十四卦象

範圍:\u4DC0-\u4DFF 參考地址:http://www.unicode.org/charts/PDF/U4DC0.pdf

17.彝文音節

範圍:\uA000-\uA48F 參考地址:http://www.unicode.org/charts/PDF/UA000.pdf

18.彝文部首

範圍:\uA490-\uA4CF 參考地址:http://www.unicode.org/charts/PDF/UA490.pdf

19.盲文符號

範圍:\u2800-\u28FF 參考地址:http://www.unicode.org/charts/PDF/U2800.pdf

20.CJK字母及月份

範圍:\u3200-\u32FF 參考地址:http://www.unicode.org/charts/PDF/U3200.pdf

21.CJK特殊符號(日期合併)

範圍:\u3300-\u33FF 參考地址:http://www.unicode.org/charts/PDF/U3300.pdf

22.裝飾符號(非CJK專用)

範圍:\u2700-\u27BF 參考地址:http://www.unicode.org/charts/PDF/U2700.pdf

23.雜項符號(非CJK專用)

範圍:\u2600-\u26FF 參考地址:http://www.unicode.org/charts/PDF/U2600.pdf

24.中文豎排標點

範圍:\uFE10-\uFE1F 參考地址:http://www.unicode.org/charts/PDF/UFE10.pdf

25.CJK兼容符號(豎排變體、下劃線、頓號)

範圍:\uFE30-\uFE4F 參考地址:http://www.unicode.org/charts/PDF/UFE30.pdf

改進後的匹配表達式

  1. [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-\u303F\u31C0-\u31EF] (注:這條基本能知足要求)
  2. [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-\u303F\u31C0-\u31EF\u2F00-\u2FDF\u2FF0-\u2FFF\u3100-\u312F\u31A0-\u31BF\u3040-\u309F\u30A0-\u30FF\u31F0-\u31FF\uAC00-\uD7AF\u1100-\u11FF\u3130-\u318F\u4DC0-\u4DFF\uA000-\uA48F\uA490-\uA4CF\u2800-\u28FF\u3200-\u32FF\u3300-\u33FF\u2700-\u27BF\u2600-\u26FF\uFE10-\uFE1F\uFE30-\uFE4F] (注:這是完整版本)

轉自:http://ju.outofmemory.cn/entry/53571

相關文章
相關標籤/搜索