linux - 安裝OpenCC(簡體繁體轉換)

時間 2019-11-11

原文原文鏈接

最近使用中文維基百科數據訓練Word2Vec時，發現數據裏面包含了不少繁體字，這就很尷尬了。這時候就知道OpenCC的強大了。哈哈，原本打算直接使用python裏面的opencc模塊的，可是在安裝，編譯opencc時遇到了各類錯誤。花費了很長時間，終於安裝成功，可是文本處理起來效率很低。最終選擇了直接在linux下安裝OpenCC，處理的效率着實安慰了我受傷的心 -- 很快，特別快。
好啦，接下來總結下OpenCC的安裝方法，萬一之後又用到它了呢？主要參考這篇博客：html

檢查下linux環境下是否已經安裝cmake以及git，若是沒有，那就經過yum安裝好。python

$ yum install cmake
$ yum install git

克隆下OpennCC開源項目OpennCC開源項目。linux

$ git clone https://github.com/BYVoid/OpenCC

編譯OpenCCgit

$ cd OpenCC
$ make
$ make install

建立libopencc.so.2連接github

若是不知道libopencc.so.2的路徑，能夠經過find / -name libopencc.so.2查找。json

$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

經過查看 OpenCC 版本，檢查OpenCC是否已經安裝成功測試

$ opencc --version

測試用例.net

# 繁體轉簡體
$ echo '歐幾裏得 西元前三世紀的希臘數學家' | opencc -c t2s
歐幾里得 西元前三世紀的希臘數學家
# 簡體轉繁體
$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c s2t
歐幾裏得 西元前三世紀的希臘數學家
# 能夠經過如下方式直接對文件進行繁簡轉換
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。