能夠把將日文漢字轉換成平假名、片假名、羅馬音的KaKaSi

KAKASI

瞭解它!

KAKASI(Kanji Kana Simple Inverter)是語言處理過濾器,能夠將 日文漢字 轉換成 平假名,片假名或Romaji ,能夠 方便閱讀日文文本 以及 給日語學習者提供便利html

好比把漢字 轉換成かんじ/kanjisegmentfault

例子

在命令行中( 我用的是mac的terminal win的不太肯定 )api

# input.txt
# 漢字
#
% ls
input.txt
% kakasi -JH <input.txt -i utf8 -o utf8
かんじ

得到它!

下載

? 英文主頁網絡

? 日文主頁工具

安裝

把下載到的壓縮包(.tar.gx.tar.xz)解壓學習

% gzip -dc kakasi-2.3.6.tar.gz | tar xvf -

進入到解壓出來的文件夾中編碼

% cd kakasi-2.3.6

你能夠看到文件夾中有如下內容spa

% ls
AUTHORS      NEWS        config.guess*  install-sh*       ltmain.sh
COPYING      ONEWS       config.h.in    itaijidict        magic-kakasi
ChangeLog    README      config.rpath*  kakasi-config.in  maintMakefile
INSTALL      README-ja   config.sub*    kakasi.spec       man/
INSTALL-ja   THANKS      configure*     kakasi.spec.in    missing*
Makefile.am  TODO        configure.in   kakasidict        src/
Makefile.in  aclocal.m4  doc/           lib/              tests/

依次輸出如下命令就能夠完成安裝命令行

% ./configure
% make
% su
# make install

確認

若是沒有意外,到這裏你已經成功安裝kakasicode

你能夠經過如下命令來確認是否安裝完畢。

# kakasi -help

它會返回以下一個命令提示

KAKASI - Kanji Kana Simple Inverter  Version 2.3.6
Copyright (C) 1992-1999 Hironobu Takahashi. All rights reserved.

Usage: kakasi -a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH]
              -i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}
              -r{hepburn,kunrei} -p -s -f -c"chars"  [jisyo1, jisyo2,,,]

      Character Sets:
       a: ascii  j: jisroman  g: graphic  k: kana (j,k     defined in jisx0201)
       E: kigou  K: katakana  H: hiragana J: kanji(E,K,H,J defined in jisx0208)

      Options:
      -i: input coding system    -o: output coding system
      -r: romaji conversion system
      -p: list all readings (with -J option)
      -s: insert separate characters (with -J option)  -S"chars": set separator
      -f: furigana mode (with -J option)
      -F[rl]"chars": set parentheses around furigana
      -c: skip chars within jukugo (with -J option: default TAB CR LF BLANK)
      -C: romaji Capitalize (with -Ja or -Jj option)
      -U: romaji Upcase     (with -Ja or -Jj option)
      -u: call fflush() after 1 character output
      -t: use old romaji table
      -w: wakatigaki mode
      -{l,L}: level {hiragana,furigana} mode (-{l,L}[123456jn])
      -y: display yomi of each kanji characters

Report bugs to <bug-kakasi@namazu.org>.

用它!

使用kakasi的一個問題是,它沒有提供官方文檔,網絡上提供連接也基本失效,不過花了一番功夫仍是找到了一個能用的文檔,你們若想了解更多能夠閱讀。

? 我也只是剛剛接觸kakasi,更多使用方法,歡迎你們評論留言交流。

基本格式

kakasi 轉換格式 <入口文件 >出口文件 輸入輸出編碼設置

例子

kakasi -Ja <input.txt -i utf8 -o utf8
# 將會在命令行中返回轉換結果
kakasi -JH <input.txt >output.txt -i utf8 -o utf8
# 轉換結果會保持到output.txt中

轉換格式設置

-a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH]
Character Sets:
    a: ascii  j: jisroman  g: graphic  k: kana (j,k     defined in jisx0201)
    E: kigou  K: katakana  H: hiragana J: kanji(E,K,H,J defined in jisx0208)

經常使用的設置

  • -JH 漢字轉平假名( kanji -> hiragana ) || 漢字 轉換成かんじ

  • -Ja 漢字轉羅馬音( kanji -> ascii(roman) ) || 漢字 轉換成kanji

  • -JK 漢字轉片假名( kanji -> katakana ) || 漢字 轉換成カンジ

  • -HK 平假名轉片假名(hiragana -> katakana) || かんじ轉換成カンジ

入口、出口文件設置

<input.txt

將"input.txt"做爲輸入文件

>output.txt

以"output.txt"爲輸出文件

輸入輸出編碼設置

-i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}

其餘工具:
日文文本分析最強王者——Kuromoji

相關文章
相關標籤/搜索