pyhanlp 繁簡轉換之拼音轉換與字符正則化

時間 2019-11-05

標籤 pyhanlp 繁簡轉換拼音字符正則欄目正則表達式简体版

原文原文鏈接

繁簡轉換git

HanLP幾乎實現了全部咱們須要的繁簡轉換方式，而且已經封裝到了HanLP中，使得咱們能夠輕鬆的使用，而分詞器中已經默認支持多種繁簡格式或者混合。這裏咱們再也不作過多描述。github

·說明算法

· HanLP可以識別簡繁分歧詞，好比打印機=印表機。許多簡繁轉換工具不能區分「之後」「皇后」中的兩個「後」字，HanLP能夠。緩存

·算法詳解數據結構

· 《漢字轉拼音與簡繁轉換的Java實現》工具

漢字轉拼音性能

HanLP中的漢字轉拼音功能也十分的強大。3d

·說明orm

· HanLP不只支持基礎的漢字轉拼音，還支持聲母、韻母、音調、音標和輸入法首字母首聲母功能。blog

· HanLP可以識別多音字，也能給繁體中文注拼音。

· 最重要的是，HanLP採用的模式匹配升級到AhoCorasickDoubleArrayTrie，性能大幅提高，可以提供毫秒級的響應速度！

·算法詳解

· 《漢字轉拼音與簡繁轉換的Java實現》

拼音轉中文

HanLP中的數據結構和接口是靈活的，組合這些接口，能夠本身創造新功能，咱們可使用AhoCorasickDoubleArrayTrie實現的最長分詞器，須要用戶調用setTrie()提供一個AhoCorasickDoubleArrayTrie

字符正則化

演示正規化字符配置項的效果（繁體->簡體，全角->半角，大寫->小寫）。

該配置項位於hanlp.properties中，經過Normalization=true來開啓（如今直接經過HanLP.Config.Normalization開啓便可）。

切換配置後必須刪除CustomDictionary.txt.bin緩存，不然隻影響動態插入的新詞。

在我動筆前一個星期，已經有同窗添加了，添加自定義詞典以後，自動刪除緩存的功能。地址請點擊https://github.com/hankcs/HanLP/pull/954，如今只須要開啓正則化便可

1| HanLP.Config.Normalization = False

3| [愛聽4g]

4| [愛聽4G]

5| [愛, 聽, ４, G]

6| [愛, 聽, ４, Ｇ]

7| [愛, 聽, ４, Ｇ]

8| [喜歡, ４, Ｇ]

9| [hankcs, 在, 臺, 灣寫, 代, 碼]

10|

11| HanLP.Config.Normalization = True

12|

13| [愛聽4g]

14| [愛聽4g]

15| [愛聽4g]

16| [愛聽4g]

17| [愛聽4g]

18| [喜歡, 4, g]

19 |[hankcs, 在, 臺灣, 寫, 代碼]

20| 現在的HanLP已經新增了新增自定義詞典之後，自動刪除快取的功能,現在只須要開啟正則化便可

21| [如今, 的, hanlp, 已經, 新增, 了, 新增, 自定義, 詞典, 以後, ,, 自動, 刪除, 快, 取, 的, 功能, ,, 如今, 只, 須要, 開啓, 正, 則, 化, 便可]

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。