佳木斯湛栽影视文化发展公司

主頁 > 知識(shí)庫 > 解決VIM顯示utf-8文件亂碼問題

解決VIM顯示utf-8文件亂碼問題

熱門標(biāo)簽:網(wǎng)站文章發(fā)布 服務(wù)器配置 檢查注冊(cè)表項(xiàng) 鐵路電話系統(tǒng) 智能手機(jī) 呼叫中心市場需求 美圖手機(jī) 銀行業(yè)務(wù)

1.相關(guān)基礎(chǔ)知識(shí)介紹

        在Vim中,有四個(gè)與編碼有關(guān)的選項(xiàng),它們是:fileencodings、fileencoding、encoding和termencoding。在實(shí)際使用中,任何一個(gè)選項(xiàng)出現(xiàn)錯(cuò)誤,都會(huì)導(dǎo)致出現(xiàn)亂碼。因此,每一個(gè)Vim用戶都應(yīng)該明確這四個(gè)選項(xiàng)的含義。下面,我們?cè)敿?xì)介紹一下這四個(gè)選項(xiàng)的含義和作用。

        (1)encoding

        encoding是Vim內(nèi)部使用的字符編碼方式。當(dāng)我們?cè)O(shè)置了encoding之后,Vim內(nèi)部所有的buffer、寄存器、腳本中的字符串等,全都使用這個(gè)編碼。Vim 在工作的時(shí)候,如果編碼方式與它的內(nèi)部編碼不一致,它會(huì)先把編碼轉(zhuǎn)換成內(nèi)部編碼。如果工作用的編碼中含有無法轉(zhuǎn)換為內(nèi)部編碼的字符,在這些字符就會(huì)丟失。因此,在選擇 Vim 的內(nèi)部編碼的時(shí)候,一定要使用一種表現(xiàn)能力足夠強(qiáng)的編碼,以免影響正常工作。

        由于encoding選項(xiàng)涉及到Vim中所有字符的內(nèi)部表示,因此只能在Vim啟動(dòng)的時(shí)候設(shè)置一次。在Vim工作過程中修改encoding會(huì)造成非常多的問題。用戶手冊(cè)上建議只在 .vimrc中改變它的值,事實(shí)上似乎也只有在 .vimrc中改變它的值才有意義。如果沒有特別的理由,請(qǐng)始終將encoding設(shè)置為utf-8。為了避免在非UTF-8的系統(tǒng)如Windows下,菜單和系統(tǒng)提示出現(xiàn)亂碼,可同時(shí)做這幾項(xiàng)設(shè)置:

        set encoding=utf-8
        set langmenu=zh_CN.UTF-8
        language message zh_CN.UTF-8

        (2)termencoding

        termencoding是Vim用于屏幕顯示的編碼,在顯示的時(shí)候,Vim會(huì)把內(nèi)部編碼轉(zhuǎn)換為屏幕編碼,再用于輸出。內(nèi)部編碼中含有無法轉(zhuǎn)換為屏幕編碼的字符時(shí),該字符會(huì)變成問號(hào),但不會(huì)影響對(duì)它的編輯操作。如果termencoding沒有設(shè)置,則直接使用encoding不進(jìn)行轉(zhuǎn)換。

        舉個(gè)例子,當(dāng)你在Windows下通過telnet登錄Linux工作站時(shí),由于Windows的telnet是GBK編碼的,而Linux下使用UTF-8編碼,你在telnet下的Vim中就會(huì)亂碼。此時(shí)有兩種消除亂碼的方式:一是把Vim的encoding改為gbk,另一種方法是保持encoding為utf-8,把termencoding改為gbk,讓Vim在顯示的時(shí)候轉(zhuǎn)碼。顯然,使用前一種方法時(shí),如果遇到編輯的文件中含有GBK無法表示的字符時(shí),這些字符就會(huì)丟失。但如果使用后一種方法,雖然由于終端所限,這些字符無法顯示,但在編輯過程中這些字符是不會(huì)丟失的。

        對(duì)于圖形界面下的GVim,它的顯示不依賴TERM,因此termencoding對(duì)于它沒有意義。在GTK2下的GVim 中,termencoding永遠(yuǎn)是utf-8,并且不能修改。而Windows下的GVim則忽略termencoding的存在。

        (3)fileencoding

        當(dāng)Vim從磁盤上讀取文件的時(shí)候,會(huì)對(duì)文件的編碼進(jìn)行探測。如果文件的編碼方式和Vim的內(nèi)部編碼方式不同,Vim就會(huì)對(duì)編碼進(jìn)行轉(zhuǎn)換。轉(zhuǎn)換完畢后,Vim會(huì)將fileencoding選項(xiàng)設(shè)置為文件的編碼。當(dāng)Vim存盤的時(shí)候,如果encoding和fileencoding不一樣,Vim就會(huì)進(jìn)行編碼轉(zhuǎn)換。因此,通過打開文件后設(shè)置fileencoding,我們可以將文件由一種編碼轉(zhuǎn)換為另一種編碼。但是,由前面的介紹可以看出,fileencoding是在打開文件的時(shí)候,由Vim進(jìn)行探測后自動(dòng)設(shè)置的。因此,如果出現(xiàn)亂碼,我們無法通過在打開文件后重新設(shè)置fileencoding來糾正亂碼。

        簡而言之,fileencoding是Vim中當(dāng)前編輯的文件的字符編碼方式,Vim保存文件時(shí)也會(huì)將文件保存為這種字符編碼方式 (不管是否新文件都如此)。

        (4)fileencodings

        編碼的自動(dòng)識(shí)別是通過設(shè)置fileencodings實(shí)現(xiàn)的,注意是復(fù)數(shù)形式。fileencodings是一個(gè)用逗號(hào)分隔的列表,列表中的每一項(xiàng)是一種編碼的名稱。當(dāng)我們打開文件的時(shí)候,VIM按順序使用fileencodings中的編碼進(jìn)行嘗試解碼,如果成功的話,就使用該編碼方式進(jìn)行解碼,并將fileencoding設(shè)置為這個(gè)值,如果失敗的話,就繼續(xù)試驗(yàn)下一個(gè)編碼。

        因此,我們?cè)谠O(shè)置fileencodings的時(shí)候,一定要把要求嚴(yán)格的、當(dāng)文件不是這個(gè)編碼的時(shí)候更容易出現(xiàn)解碼失敗的編碼方式放在前面,把寬松的編碼方式放在后面。例如,latin1是一種非常寬松的編碼方式,任何一種編碼方式得到的文本,用latin1進(jìn)行解碼,都不會(huì)發(fā)生解碼失敗——當(dāng)然,解碼得到的結(jié)果自然也就是理所當(dāng)然的“亂碼”。因此,如果你把latin1放到了fileencodings的第一位的話,打開任何中文文件都是亂碼也就是理所當(dāng)然的了。

        以下是網(wǎng)上推薦的一個(gè)fileencodings設(shè)置:

        set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1

        其中,ucs-bom是一種非常嚴(yán)格的編碼,非該編碼的文件幾乎沒有可能被誤判為ucs-bom,因此放在第一位。

        utf-8也相當(dāng)嚴(yán)格,除了很短的文件外(例如許多人津津樂道的GBK編碼的“聯(lián)通”被誤判為UTF-8編碼的經(jīng)典錯(cuò)誤),現(xiàn)實(shí)生活中一般文件是幾乎不可能被誤判的,因此放在第二位。

        接下來是cp936和gb18030,這兩種編碼相對(duì)寬松,如果放前面的話,會(huì)出現(xiàn)大量誤判,所以就讓它們靠后一些。cp936的編碼空間比gb18030小,所以把cp936放在gb18030前面。

        至于big5、euc-jp和euc-kr,它們的嚴(yán)格程度和cp936差不多,把它們放在后面,在編輯這些編碼的文件的時(shí)候必然出現(xiàn)大量誤判,但這是Vim內(nèi)置編碼探測機(jī)制沒有辦法解決的事。由于中國用戶很少有機(jī)會(huì)編輯這些編碼的文件,因此我們還是決定把cp936和gb18030放在前面以保證這些編碼的識(shí)別。

        最后就是latin1了。它是一種極其寬松的編碼,以至于我們不得不把它放在最后一位。不過可惜的是,當(dāng)你碰到一個(gè)真的latin1編碼的文件時(shí),絕大部分情況下,它沒有機(jī)會(huì)fall-back到latin1,往往在前面的編碼中就被誤判了。不過,正如前面所說的,中國用戶沒有太多機(jī)會(huì)接觸這樣的文件。

        如果編碼被誤判了,解碼后的結(jié)果就無法被人類識(shí)別,于是我們就說,這個(gè)文件亂碼了。此時(shí),如果你知道這個(gè)文件的正

確編碼的話,可以在打開文件的時(shí)候使用 ++enc=encoding 的方式來打開文件,如:

        :e ++enc=utf-8 myfile.txt

2.Vim的工作原理

        好了,解釋完了這一堆容易讓新手犯糊涂的參數(shù),我們來看看Vim的多字符編碼方式支持是如何工作的。

        (1)Vim啟動(dòng),根據(jù) .vimrc中設(shè)置的encoding的值來設(shè)置buffer、菜單文本、消息文的字符編碼方式。

        (2)讀取需要編輯的文件,根據(jù)fileencodings中列出的字符編碼方式逐一探測該文件編碼方式。并設(shè)置fileencoding為探測到的,看起來是正確的字符編碼方式。事實(shí)上,Vim 的探測準(zhǔn)確度并不高,尤其是在encoding沒有設(shè)置為utf-8時(shí)。因此強(qiáng)烈建議將encoding設(shè)置為utf-8,雖然如果你想Vim顯示中文菜單和提示消息的話這樣會(huì)帶來另一個(gè)小問題。

        (3)對(duì)比fileencoding和encoding的值,若不同則調(diào)用iconv將文件內(nèi)容轉(zhuǎn)換為encoding所描述的字符編碼方式,并且把轉(zhuǎn)換后的內(nèi)容放到為此文件開辟的buffer里,此時(shí)我們就可以開始編輯這個(gè)文件了。注意,完成這一步動(dòng)作需要調(diào)用外部的iconv.dll(注2),你需要保證這個(gè)文件存在于$VIMRUNTIME或者其他列在PATH環(huán)境變量中的目錄里。

        (4)編輯完成后保存文件時(shí),再次對(duì)比fileencoding和encoding的值。若不同,再次調(diào)用iconv將即將保存的buffer中的文本轉(zhuǎn)換為fileencoding所描述的字符編碼方式,并保存到指定的文件中。同樣,這需要調(diào)用iconv.dll

3.解決辦法示例

        (1)方法一:設(shè)定.vimrc文件:

        在/home/username/.vimrc或者/root/.vimrc下增加兩句話:

        let termencoding=encoding
        set fileencodings=utf-8,gbk,ucs-bom,cp936

        這種辦法可以實(shí)現(xiàn)編輯UTF-8文件

        (2)方法而二:打開文件后,在vi編輯器中設(shè)定:

 :set encoding=utf-8 termencoding=gbk fileencoding=utf-8

        (3)方法三:新建UTF-8文件,在vi編輯器設(shè)定:

        :set fenc=utf-8
        :set enc=GB2312

        這樣在編輯器里輸入中文,保存的文件是UTF-8。

        (4)方法四:一個(gè)推薦的~/.vimrc文件配置:

set encoding=utf-8
  set fileencodings=ucs-bom,utf-8,cp936,gb18030,latin1
  set termencoding=gb18030
  set expandtab
  set ts=4
  set shiftwidth=4
  set nu
  syntax on
  if has('mouse')
  set mouse-=a
  endif

 總結(jié)

以上所述是小編給大家介紹的解決VIM顯示utf-8文件亂碼問題,希望對(duì)大家有所幫助!

您可能感興趣的文章:
  • MySql修改數(shù)據(jù)庫編碼為UTF8避免造成亂碼問題
  • phpmyadmin顯示utf8_general_ci中文亂碼的問題終級(jí)篇
  • PHP utf-8編碼問題,utf8編碼,數(shù)據(jù)庫亂碼,頁面顯示輸出亂碼
  • MySQL字符集 GBK、GB2312、UTF8區(qū)別 解決MYSQL中文亂碼問題
  • PHP substr 截取字符串出現(xiàn)亂碼問題解決方法[utf8與gb2312]
  • MySQL的中文UTF8亂碼問題
  • PHP MYSQL亂碼問題,使用SET NAMES utf8校正

標(biāo)簽:紅河 新疆 長治 河南 上海 沈陽 樂山 滄州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《解決VIM顯示utf-8文件亂碼問題》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    宣恩县| 岳阳县| 滨海县| 宁海县| 崇州市| 桐柏县| 宁津县| 曲阳县| 太康县| 固镇县| 芒康县| 滨州市| 兰坪| 乐业县| 岢岚县| 安陆市| 格尔木市| 长治县| 泰安市| 宜都市| 潼关县| 嘉黎县| 麟游县| 岚皋县| 青铜峡市| 武威市| 金川县| 韶关市| 威海市| 闽清县| 缙云县| 马公市| 内乡县| 灵武市| 安西县| 邹城市| 义乌市| 郓城县| 遂平县| 毕节市| 新和县|