pyhanlp 繁簡轉換之拼音轉換與字符正則化

繁簡轉換git

HanLP幾乎實現了全部咱們須要的繁簡轉換方式,而且已經封裝到了HanLP中,使得咱們能夠輕鬆的使用,而分詞器中已經默認支持多種繁簡格式或者混合。這裏咱們再也不作過多描述。github

 

·說明算法

· HanLP可以識別簡繁分歧詞,好比打印機=印表機。許多簡繁轉換工具不能區分「之後」「皇后」中的兩個「後」字,HanLP能夠。緩存

·算法詳解數據結構

· 《漢字轉拼音與簡繁轉換的Java實現》工具

 

漢字轉拼音性能

 

HanLP中的漢字轉拼音功能也十分的強大。3d

 

·說明orm

· HanLP不只支持基礎的漢字轉拼音,還支持聲母、韻母、音調、音標和輸入法首字母首聲母功能。blog

· HanLP可以識別多音字,也能給繁體中文注拼音。

· 最重要的是,HanLP採用的模式匹配升級到AhoCorasickDoubleArrayTrie,性能大幅提高,可以提供毫秒級的響應速度!

·算法詳解

· 《漢字轉拼音與簡繁轉換的Java實現》

 

拼音轉中文

 

HanLP中的數據結構和接口是靈活的,組合這些接口,能夠本身創造新功能,咱們可使用AhoCorasickDoubleArrayTrie實現的最長分詞器,須要用戶調用setTrie()提供一個AhoCorasickDoubleArrayTrie

 

字符正則化

 

演示正規化字符配置項的效果(繁體->簡體,全角->半角,大寫->小寫)。

該配置項位於hanlp.properties中,經過Normalization=true來開啓(如今直接經過HanLP.Config.Normalization開啓便可)。

 

切換配置後必須刪除CustomDictionary.txt.bin緩存,不然隻影響動態插入的新詞。

在我動筆前一個星期,已經有同窗添加了,添加自定義詞典以後,自動刪除緩存的功能。地址請點擊https://github.com/hankcs/HanLP/pull/954,如今只須要開啓正則化便可

 

1| HanLP.Config.Normalization = False

2|

3| [愛聽4g]

4| [愛聽4G]

5| [愛, 聽, 4, G]

6| [愛, 聽, 4, G]

7| [愛, 聽, 4, G]

8| [喜歡, 4, G]

9| [hankcs, 在, 臺, 灣寫, 代, 碼]

10|

11| HanLP.Config.Normalization = True

12|

13| [愛聽4g]

14| [愛聽4g]

15| [愛聽4g]

16| [愛聽4g]

17| [愛聽4g]

18| [喜歡, 4, g]

19 |[hankcs, 在, 臺灣, 寫, 代碼]

20| 現在的HanLP已經新增了新增自定義詞典之後,自動刪除快取的功能,現在只須要開啟正則化便可

21| [如今, 的, hanlp, 已經, 新增, 了, 新增, 自定義, 詞典, 以後, ,, 自動, 刪除, 快, 取, 的, 功能, ,, 如今, 只, 須要, 開啓, 正, 則, 化, 便可]

相關文章
相關標籤/搜索