Python 輕量化簡繁轉換

最近項目中用到了簡單的簡繁轉換,若是用OpenCC過重了,因而搜到了 zhconv 這個庫。python


zhconv 提供基於 MediaWiki 詞彙表的最大正向匹配簡繁轉換,Python 2, 3 通用。git

支持如下地區詞轉換:
程序員

  • zh-tw 臺灣正體
  • zh-hk 香港繁體
  • zh-sg 馬新簡體
  • zh-hans 簡體
  • zh-hant 繁體


正好適合我不求轉換質量的輕量需求,因此介紹給更多須要的人。github

並且雖然該項目stars不多,但中途發現做者還參與過維護jieba分詞。編程


調用也很是簡單微信

>>> from zhconv import convert
>>> convert('Python是一種動態的、面向對象的腳本語言', 'zh-hant')
'Python是一種動態的、面向對象的腳本語言'
複製代碼


支持對地區化詞語的轉換學習

>>> convert('計算機軟件', 'zh-tw')
'計算機軟體'
>>> convert('計算機軟體', 'zh-hans') # zh-hans只是逐字轉換
'計算機軟體'
>>> convert('計算機軟體', 'zh-cn')
'計算機軟件'
複製代碼


支持 MediaWiki 人工轉換語法spa

>>> from zhconv import convert_for_mw
>>> s = '張國榮曾在英國-{zh:利茲;zh-hans:利茲;zh-hk:列斯;zh-tw:裏茲}-大學學習。'
>>> convert_for_mw(s, 'zh-hans')
'張國榮曾在英國利茲大學學習。'
>>> convert_for_mw(s, 'zh-hk')
'張國榮曾在英國列斯大學學習。'
>>> convert_for_mw(s, 'zh-tw')
'張國榮曾在英國裏茲大學學習。'
複製代碼


固然對於複雜高精度的轉換需求,仍是建議用專業的OpenCC 開源庫:code

https://github.com/BYVoid/OpenCC


歡迎關注


微信公衆號:面向人生編程cdn

編程思惟不該只存留在代碼之中,更應伴隨於整我的生旅途,這個公衆號不僅聊技術,還會聊產品/互聯網/經濟學等普遍話題,因此也歡迎非程序員關注。

相關文章
相關標籤/搜索