最近使用中文維基百科數據訓練Word2Vec時,發現數據裏面包含了不少繁體字,這就很尷尬了。這時候就知道OpenCC的強大了。步驟以下:git
1.下載源碼:git clone https://github.com/BYVoid/OpenCCgithub
2.安裝cmake:brew install cmakejson
3.安裝Doxygen:brew install Doxygen測試
4.開始安裝:(1)cd OpenCC ,(2)make PREFIX=/usr/local ,(3)sudo make PREFIX=/usr/local install
code
5.測試是否順利安裝:OpenCC --versionget
6.進入實戰:OpenCC -i [源文件] -o [輸出文件] -c t2s.json源碼