PHP利用ICU擴展intl快速實現漢字轉拼音以及按拼音首字母分組排序

時間 2019-11-19

標籤 php 利用 icu 擴展 intl 快速實現漢字拼音以及首字母分組排序欄目 PHP 简体版

原文原文鏈接

ICU(International Components for Unicode)裏提供了transliterator(直譯器),
能夠很方便把其餘語言(好比簡體中文)轉爲拉丁文表示:
http://cn2.php.net/manual/zh/transliterator.transliterate.php
Transliterator: allows getting latin representation of strings in various languages.php

1html

2linux

3數組

4ide

5ui

6阿里雲

7編碼

8spa

9.net

<?php

//文件編碼要求是Unicode

header('Content-Type: text/html; charset=utf-8');

echo transliterator_transliterate('Any-Latin', '中華有爲');

//輸出 zhōng huá yǒu wèi

echo transliterator_transliterate('Any-Latin; Latin-ASCII; Lower()', '中華有爲');

//輸出 zhong hua you wei

echo transliterator_transliterate('Any-Latin; Latin-ASCII; Upper()', '中華有爲');

//輸出 ZHONG HUA YOU WEI

echo transliterator_transliterate('Any-Latin', '重陽');

//輸出 zhòng yáng (錯誤,多音字仍是坑)

蘋果上的CFStringTransform/kCFStringTransformToLatin漢字轉拼音也是經過ICU transform實現的:
http://userguide.icu-project.org/transforms/general#TOC-ICU-Transliterators
http://nshipster.com/cfstringtransform/

使用php5-intl(依賴ICU:libicu52)的簡體中文(zh_CN)排序器collator按拼音排序:
http://cn2.php.net/manual/zh/collator.sort.php
php-src/ext/intl --enable-intl --with-icu-dir=DIR
相關: MySQL數據表排序規則COLLATE=utf8_general_ci

<?php

header('Content-Type: text/html; charset=utf-8');

$coll = collator_create('zh_CN');

$arr = array('中國','華山','華夏','中華','重陽','重量','b','a',2,1);

collator_sort($coll, $arr);

var_export($arr);

//輸出(可見漢字按照拼音排序,但不能識別多音字"重"):

array (

0 => 'a',

1 => 'b',

2 => '華山',

3 => '華夏',

4 => '中國',

5 => '中華',

6 => '重量',

7 => '重陽',

8 => 1,

9 => 2,

)

若是元素1和2加上引號變成字符串類型的話,則1和2排序後會出如今開頭.
查看已經安裝的軟件包目錄文件結構:
dpkg -L libicu52:amd64
/usr/lib/x86_64-linux-gnu/libicu*
/usr/lib/x86_64-linux-gnu/libicudata.so.52.1 動態庫23MB
/usr/lib/x86_64-linux-gnu/libicudata.a 靜態庫23MB
Windows上則是:
php\icu*.dll
php\ext\php_intl.dll

下面實現了經常使用的按漢字拼音首字母分組排序的功能: