vim 文件編碼設置

時間 2019-11-12

標籤 vim 文件編碼設置欄目 Unix 简体版

原文原文鏈接

1.相關基礎知識介紹在Vim中，有四個與編碼有關的選項，它們是：fileencodings、fileencoding、encoding和termencoding。在實際使用中，任何一個選項出現錯誤，都會致使出現亂碼。所以，每個Vim用戶都應該明確這四個選項的含義。下面，咱們詳細介紹一下這四個選項的含義和做用。vim

（1）encoding encoding是Vim內部使用的字符編碼方式。當咱們設置了encoding以後，Vim內部全部的buffer、寄存器、腳本中的字符串等，全都使用這個編碼。Vim 在工做的時候，若是編碼方式與它的內部編碼不一致，它會先把編碼轉換成內部編碼。若是工做用的編碼中含有沒法轉換爲內部編碼的字符，在這些字符就會丟失。所以，在選擇 Vim 的內部編碼的時候，必定要使用一種表現能力足夠強的編碼，以避免影響正常工做。因爲encoding選項涉及到Vim中全部字符的內部表示，所以只能在Vim啓動的時候設置一次。在Vim工做過程當中修改encoding會形成很是多的問題。用戶手冊上建議只在 .vimrc中改變它的值，事實上彷佛也只有在 .vimrc中改變它的值纔有意義。若是沒有特別的理由，請始終將encoding設置爲utf-8。爲了不在非UTF-8的系統如Windows下，菜單和系統提示出現亂碼，可同時作這幾項設置： set encoding=utf-8 set langmenu=zh_CN.UTF-8 language message zh_CN.UTF-8編輯器

（2）termencoding termencoding是Vim用於屏幕顯示的編碼，在顯示的時候，Vim會把內部編碼轉換爲屏幕編碼，再用於輸出。內部編碼中含有沒法轉換爲屏幕編碼的字符時，該字符會變成問號，但不會影響對它的編輯操做。若是termencoding沒有設置，則直接使用encoding不進行轉換。舉個例子，當你在Windows下經過telnet登陸Linux工做站時，因爲Windows的telnet是GBK編碼的，而Linux下使用UTF-8編碼，你在telnet下的Vim中就會亂碼。此時有兩種消除亂碼的方式：一是把Vim的encoding改成gbk，另外一種方法是保持encoding爲utf-8，把termencoding改成gbk，讓Vim在顯示的時候轉碼。顯然，使用前一種方法時，若是遇到編輯的文件中含有GBK沒法表示的字符時，這些字符就會丟失。但若是使用後一種方法，雖然因爲終端所限，這些字符沒法顯示，但在編輯過程當中這些字符是不會丟失的。對於圖形界面下的GVim，它的顯示不依賴TERM，所以termencoding對於它沒有意義。在GTK2下的GVim 中，termencoding永遠是utf-8，而且不能修改。而Windows下的GVim則忽略termencoding的存在。編碼

（3）fileencoding 當Vim從磁盤上讀取文件的時候，會對文件的編碼進行探測。若是文件的編碼方式和Vim的內部編碼方式不一樣，Vim就會對編碼進行轉換。轉換完畢後，Vim會將fileencoding選項設置爲文件的編碼。當Vim存盤的時候，若是encoding和fileencoding不同，Vim就會進行編碼轉換。所以，經過打開文件後設置fileencoding，咱們能夠將文件由一種編碼轉換爲另外一種編碼。可是，由前面的介紹能夠看出，fileencoding是在打開文件的時候，由Vim進行探測後自動設置的。所以，若是出現亂碼，咱們沒法經過在打開文件後從新設置fileencoding來糾正亂碼。簡而言之，fileencoding是Vim中當前編輯的文件的字符編碼方式，Vim保存文件時也會將文件保存爲這種字符編碼方式 (不論是否新文件都如此)。utf-8

（4）fileencodings 編碼的自動識別是經過設置fileencodings實現的，注意是複數形式。fileencodings是一個用逗號分隔的列表，列表中的每一項是一種編碼的名稱。當咱們打開文件的時候，VIM按順序使用fileencodings中的編碼進行嘗試解碼，若是成功的話，就使用該編碼方式進行解碼，並將fileencoding設置爲這個值，若是失敗的話，就繼續試驗下一個編碼。所以，咱們在設置fileencodings的時候，必定要把要求嚴格的、當文件不是這個編碼的時候更容易出現解碼失敗的編碼方式放在前面，把寬鬆的編碼方式放在後面。例如，latin1是一種很是寬鬆的編碼方式，任何一種編碼方式獲得的文本，用latin1進行解碼，都不會發生解碼失敗——固然，解碼獲得的結果天然也就是理所固然的「亂碼」。所以，若是你把latin1放到了fileencodings的第一位的話，打開任何中文文件都是亂碼也就是理所固然的了。字符串

如下是網上推薦的一個fileencodings設置： set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1 其中，ucs-bom是一種很是嚴格的編碼，非該編碼的文件幾乎沒有可能被誤判爲ucs-bom，所以放在第一位。 utf-8也至關嚴格，除了很短的文件外(例如許多人津津樂道的GBK編碼的「聯通」被誤判爲UTF-8編碼的經典錯誤)，現實生活中通常文件是幾乎不可能被誤判的，所以放在第二位。接下來是cp936和gb18030，這兩種編碼相對寬鬆，若是放前面的話，會出現大量誤判，因此就讓它們靠後一些。cp936的編碼空間比gb18030小，因此把cp936放在gb18030前面。至於big五、euc-jp和euc-kr，它們的嚴格程度和cp936差很少，把它們放在後面，在編輯這些編碼的文件的時候必然出現大量誤判，但這是Vim內置編碼探測機制沒有辦法解決的事。因爲中國用戶不多有機會編輯這些編碼的文件，所以咱們仍是決定把cp936和gb18030放在前面以保證這些編碼的識別。最後就是latin1了。它是一種極其寬鬆的編碼，以致於咱們不得不把它放在最後一位。不過惋惜的是，當你碰到一個真的latin1編碼的文件時，絕大部分狀況下，它沒有機會fall-back到latin1，每每在前面的編碼中就被誤判了。不過，正如前面所說的，中國用戶沒有太多機會接觸這樣的文件。若是編碼被誤判了，解碼後的結果就沒法被人類識別，因而咱們就說，這個文件亂碼了。此時，若是你知道這個文件的正確編碼的話，能夠在打開文件的時候使用 ++enc=encoding 的方式來打開文件，如： :e ++enc=utf-8 myfile.txt字符編碼

2.Vim的工做原理登錄

好了，解釋完了這一堆容易讓新手犯糊塗的參數，咱們來看看Vim的多字符編碼方式支持是如何工做的。（1）Vim啓動，根據 .vimrc中設置的encoding的值來設置buffer、菜單文本、消息文的字符編碼方式。（2）讀取須要編輯的文件，根據fileencodings中列出的字符編碼方式逐一探測該文件編碼方式。並設置fileencoding爲探測到的，看起來是正確的字符編碼方式。事實上，Vim 的探測準確度並不高，尤爲是在encoding沒有設置爲utf-8時。所以強烈建議將encoding設置爲utf-8，雖然若是你想Vim顯示中文菜單和提示消息的話這樣會帶來另外一個小問題。（3）對比fileencoding和encoding的值，若不一樣則調用iconv將文件內容轉換爲encoding所描述的字符編碼方式，而且把轉換後的內容放到爲此文件開闢的buffer裏，此時咱們就能夠開始編輯這個文件了。注意，完成這一步動做須要調用外部的iconv.dll(注2)，你須要保證這個文件存在於$VIMRUNTIME或者其餘列在PATH環境變量中的目錄裏。（4）編輯完成後保存文件時，再次對比fileencoding和encoding的值。若不一樣，再次調用iconv將即將保存的buffer中的文本轉換爲fileencoding所描述的字符編碼方式，並保存到指定的文件中。一樣，這須要調用iconv.dll基礎

3.解決辦法示例變量

（1）方法一：設定.vimrc文件：在/home/username/.vimrc或者/root/.vimrc下增長兩句話： let &termencoding=&encoding set fileencodings=utf-8,gbk,ucs-bom,cp936 這種辦法能夠實現編輯UTF-8文件原理

（2）方法而二：打開文件後，在vi編輯器中設定： :set encoding=utf-8 termencoding=gbk fileencoding=utf-8

（3）方法三：新建UTF-8文件，在vi編輯器設定： :set fenc=utf-8 :set enc=GB2312 這樣在編輯器裏輸入中文，保存的文件是UTF-8。

（4）方法四：一個推薦的～/.vimrc文件配置： set encoding=utf-8 set fileencodings=ucs-bom,utf-8,cp936,gb18030,latin1 set termencoding=gb18030 set expandtab set ts=4 set shiftwidth=4 set nu syntax on

if has('mouse') set mouse-=a endif