pyhanlp 繁簡轉換之拼音轉換與字符正則化


繁簡轉換git

HanLP幾乎實現了全部咱們須要的繁簡轉換方式,而且已經封裝到了HanLP中,使得咱們能夠輕鬆的使用,而分詞器中已經默認支持多種繁簡格式或者混合。這裏咱們再也不作過多描述。github

 

·說明算法

· HanLP可以識別簡繁分歧詞,好比打印機=印表機。許多簡繁轉換工具不能區分「之後」「皇后」中的兩個「後」字,HanLP能夠。緩存

·算法詳解數據結構

· 《漢字轉拼音與簡繁轉換的Java實現》ide

 圖1.jpg

圖2.jpg

 

漢字轉拼音工具

 

HanLP中的漢字轉拼音功能也十分的強大。性能

 

·說明spa

· HanLP不只支持基礎的漢字轉拼音,還支持聲母、韻母、音調、音標和輸入法首字母首聲母功能。orm

· HanLP可以識別多音字,也能給繁體中文注拼音。

· 最重要的是,HanLP採用的模式匹配升級到AhoCorasickDoubleArrayTrie,性能大幅提高,可以提供毫秒級的響應速度!

·算法詳解

· 《漢字轉拼音與簡繁轉換的Java實現》

 圖3.jpg

圖4.jpg

 

拼音轉中文

 

HanLP中的數據結構和接口是靈活的,組合這些接口,能夠本身創造新功能,咱們可使用AhoCorasickDoubleArrayTrie實現的最長分詞器,須要用戶調用setTrie()提供一個AhoCorasickDoubleArrayTrie

 圖5.jpg

 

字符正則化

 

演示正規化字符配置項的效果(繁體->簡體,全角->半角,大寫->小寫)。

該配置項位於hanlp.properties中,經過Normalization=true來開啓(如今直接經過HanLP.Config.Normalization開啓便可)。

 

切換配置後必須刪除CustomDictionary.txt.bin緩存,不然隻影響動態插入的新詞。

在我動筆前一個星期,已經有同窗添加了,添加自定義詞典以後,自動刪除緩存的功能。地址請點擊https://github.com/hankcs/HanLP/pull/954,如今只須要開啓正則化便可

圖6.jpg

 

1| HanLP.Config.Normalization = False

2|

3| [愛聽4g]

4| [愛聽4G]

5| [, , , G]

6| [, , , ]

7| [, , , ]

8| [喜歡, , ]

9| [hankcs, , , 灣寫, , ]

10|

11| HanLP.Config.Normalization = True

12|

13| [愛聽4g]

14| [愛聽4g]

15| [愛聽4g]

16| [愛聽4g]

17| [愛聽4g]

18| [喜歡, 4, g]

19 |[hankcs, , 臺灣, , 代碼]

20| 現在的HanLP已經新增了新增自定義詞典之後,自動刪除快取的功能,現在只須要開啟正則化便可

21| [如今, , hanlp, 已經, 新增, , 新增, 自定義, 詞典, 以後, ,, 自動, 刪除, , , , 功能, ,, 如今, , 須要, 開啓, , , , 便可]

相關文章
相關標籤/搜索