vim/vi编码问题

来源：互联网发布：液晶电视k歌软件编辑：程序博客网时间：2024/05/14 19:10

Locale是软件在运行时的语言环境, 它包括语言(Language), 地域 (Territory) 和字符集(Codeset)。
一个locale的书写格式为: 语言[_地域[.字符集]]。完全的locale表达方式是 [语言[_地域][.字符集] [@修正值]。
zh_CN.GB2312 ＝中文_中华人民共和国＋国标2312字符集。
[nick@ubuntu~]$ locale
LANG=en_US.UTF-8
LANGUAGE="zh_CN:en"
LC_CTYPE="zh_CN.UTF-8"
LC_NUMERIC="zh_CN.UTF-8"
LC_TIME="zh_CN.UTF-8"
LC_COLLATE="zh_CN.UTF-8"
LC_MONETARY="zh_CN.UTF-8"
LC_MESSAGES="zh_CN.UTF-8"
LC_PAPER="zh_CN.UTF-8"
LC_NAME="zh_CN.UTF-8"
LC_ADDRESS="zh_CN.UTF-8"
LC_TELEPHONE="zh_CN.UTF-8"
LC_MEASUREMENT="zh_CN.UTF-8"
LC_IDENTIFICATION="zh_CN.UTF-8"
# LC_ALL=zh_CN.UTF-8

locale把按照所涉及到的文化传统的各个方面分成12个大类，这12个大类分别是：
1、字符输入(LC_CTYPE)
2、数字(LC_NUMERIC)
3、比较和排序习惯(LC_COLLATE)
4、时间显示格式(LC_TIME)
5、货币单位(LC_MONETARY)
6、信息：主要是提示信息,错误信息,状态信息,标题,标签,按钮和菜单等(LC_MESSAGES)
7、姓名书写方式(LC_NAME)
8、地址书写方式(LC_ADDRESS)
9、电话号码书写方式(LC_TELEPHONE)
10、度量衡表达方式 (LC_MEASUREMENT)
11、默认纸张尺寸大小(LC_PAPER)
12、对locale自身包含信息的概述(LC_IDENTIFICATION)

locale的设定：
LC_ALL和LANG优先级的关系：LC_ALL > LC_* > LANG
修改文件(debian系列)：/etc/default/locale
修改文件(redhat系列)：/etc/sysconfig/i18n
1、如果需要一个纯中文的系统的话，设定LC_ALL=zh_CN.XXXX，或者LANG=zh_CN.XXXX都可以。
2、如果只想要一个可以输入中文的环境，而保持菜单、标题，系统信息等等为英文界面，那么只需要设定 LC_CTYPE=zh_CN.XXXX，LANG=en_US.XXXX就可以了。
3、假如什么也不做的话，也就是LC_ALL，LC_*和LANG均不指定特定值的话，系统将采用POSIX作为lcoale，也就是C locale。

LANG和LANGUAGE的区别：
LANG - Specifies the default locale for all unset locale variables
LANGUAGE - Most programs use this for the language of its interface
LANGUAGE是设置应用程序的界面语言。而LANG是优先级很低的一个变量，它指定所有与locale有关的变量的默认值

总结一下：
设定了LC_ALL就不用设置其他的了，他会强制覆盖掉LC_*.设置部分LC_*和LANG的话，没有设置的LC_*采用的是LANG的值。
1、临时设定编码：[nick@ubuntu~]$ export LC_ALL="zh_CN.GBK"
2、永久设定编码：修改文件/etc/profile（对所有用户有效）或者~/.bash_profile。在文件尾加入export LC_ALL=zh_CN.GBK

在 Linux 上，常见的情况是环境的内部编码使用 UTF-8 ，而 UTF-8 可以同任何一种语言编码作无损转换，这就保证了系统的多语言处理能力。Vim 这方面秉承了 Unix/Linux 的传统，在内部编码使 UTF-8 的时候，可以同时处理不同意语言编码的文件。

如果vim打开文件是乱码可以用用以下方法解决，之前我们可以通过enca命令查看文件的编码类型
在vi中输入冒号然后执行下面的命令
如果系统编码不是utf8，vi看uft8编码文件时这样用：
set termencoding=euc-cn encoding=utf8

如果系统编码不是gbk，vi看gbk编码文件时这样用：
set termencoding=euc-cn encoding=gbk

Vim 选项 encoding（Vim 的内部编码）；
Vim 选项 termencoding（Vim 在与屏幕/键盘交互时使用的编码）；
Vim 选项 fileencoding（Vim 当前编辑的文件在存储时的编码）；
Vim 选项 fileencodings（Vim 打开文件时的尝试使用的编码）；

Vim 选项 ambiwidth（“不明宽度”字符的处理方式）；

如果按照目前 Linux 下的惯例，内部编码一律使用 UTF-8 的话，会有一些额外的好处，其中之一就是在这种情况下 Vim 支持同时编辑多种不同编码的文件，如简体中文和繁体中文。这样，众多关于语言编码的 Vim 选项就有了用武之地了。下面进一步说明一下这些选项和推荐设定（如果适用的话）：encoding=utf-8：不管文件的编码如何，不管如何显示和输入，Vim 内部使用的编码是 UTF-8；这是国际化支持的基础。

encoding：Vim 的内部编码,包括 Vim 的 buffer (缓冲区)、菜单文本、消息文本等。默认是根据你的locale选择.用户手册上建议只在 .vimrc 中改变它的值，事实上似乎也只有在.vimrc 中改变它的值才有意义。你可以用另外一种编码来编辑和保存文件，如你的vim的encoding为utf-8,所编辑的文件采用cp936编码,vim会自动将读入的文件转成utf-8(vim的能读懂的方式），而当你写入文件时,又会自动转回成cp936（文件的保存编码)

termencoding：所工作的终端 (或者 Windows 的 Console 窗口) 的字符编码方式,取决于实际的终端或 X Window 的设定。举例来说，如果选择语言简体中文登录到 X Window，或者正在使用 CXTERM [10] 的话，那么该选项应被设为 GB2312；如果使用缺省的语言（LANG=en_US.UTF-8）登录到 X Window，该选项就应该设为 utf-8。从 Windows 下使用 PuTTY 远程连接 Linux 的请特别注意，测试表明，仅在使用 UTF-8 的情况下，PuTTY 才能可靠地支持中文的显示和输入（显示字体必须设成中文字体）。如果vim所在的term与vim编码相同，则无需设置。如其不然，你可以用vim的termencoding选项将自动转换成term 的编码.

fileencoding：文件载入时，该选项被置为 Vim 认定的文件编码，因此，存储时文件的编码不会改变。此处和下面 fileencodings 可使用的编码为 libiconv 支持的所有几百种编码（如果编译时包含了 iconv 特性的话），与中文相关的有 gb2312、gbk、gb18030、hz-gb-2312、iso-2022-cn、big5、cp936、cp950 等。如果创建新文件，你又不希望使用 UTF-8 作为文件编码时，那么，你可能需要手工设定该选项，如“:set fileencoding=gb2312”。需要注意的一点是，使用“set”来设定该选项的话会改变以后新建文件的缺省编码，而使用“setlocal”的话则只影响当前文件（参考“:help setlocal”）。

fileencodings=ucs-bom,utf-8,chinese：Vim 会首先判断文件的开头是否是一个 Unicode [7] 的 BOM（byte order mark）字符 [8]，是的话则把文件的其余内容解释成相应的 Unicode 序列；否的话再试图把文件内容解释成 UTF-8 的序列；再失败的话，则把文件解释为简体中文（chinese 是一个跨平台的简体中文字符集的别名，Linux 下相当于 gb2312 和 euc-cn；此处也可以根据需要以 gb2312、gbk 或 gb18030 等编码替代）。需要注意的是，该顺序不能颠倒，并且在后面再添加其它编码如 big5、latin1 也是没有意义的，因为 Vim 不能识别 8 比特编码中的错误，因此这些编码后列的编码永远不会被用到。

ambiwidth=double：把所有的“不明宽度”字符 [9]——指的是在 Unicode 字符集中某些同时在东西方语言中使用的字符，如省略号、破折号、书名号和全角引号，在西方文字中通常字符宽度等同于普通 ASCII 字符，而在东方文字中通常字符宽度等同于两倍的普通 ASCII 字符，因而其宽度“不明”——的宽度置为双倍字符宽度（中文字符宽度）。此数值只在 encoding 设为 utf-8 或某一 Unicode 编码时才有效。需要额外注意的是，如果你通过终端使用 Vim 的话，需要令终端也将这些字符显示为双宽度。

需要设定的选项通常放在用户的 Vim 资源配置文件中，即在 ~/.vimrc 文件中加入相关修改

好了，解释完了这一堆容易让新手犯糊涂的参数，我们来看看 Vim 的多字符编码方式支持是如何工作的。

1. Vim 启动，根据 .vimrc 中设置的 encoding 的值来设置 buffer、菜单文本、消息文的字符编码方式。

2. 读取需要编辑的文件，根据 fileencodings 中列出的字符编码方式逐一探测该文件编码方式。并设置 fileencoding 为探测到的，看起来是正确的 (注1) 字符编码方式。

3. 对比 fileencoding 和 encoding 的值，若不同则调用 iconv 将文件内容转换为encoding 所描述的字符编码方式，并且把转换后的内容放到为此文件开辟的 buffer 里，此时我们就可以开始编辑这个文件了。注意，完成这一步动作需要调用外部的 iconv.dll(注2)，你需要保证这个文件存在于 $VIMRUNTIME 或者其他列在 PATH 环境变量中的目录里。

4. 编辑完成后保存文件时，再次对比 fileencoding 和 encoding 的值。若不同，再次调用 iconv 将即将保存的 buffer 中的文本转换为 fileencoding 所描述的字符编码方式，并保存到指定的文件中。同样，这需要调用 iconv.dll由于 Unicode 能够包含几乎所有的语言的字符，而且 Unicode 的 UTF-8 编码方式又是非常具有性价比的编码方式 (空间消耗比 UCS-2 小)，因此建议 encoding 的值设置为utf-8。这么做的另一个理由是 encoding 设置为 utf-8 时，Vim 自动探测文件的编码方式会更准确 (或许这个理由才是主要的 ;)。我们在中文 Windows 里编辑的文件，为了兼顾与其他软件的兼容性，文件编码还是设置为 GB2312/GBK 比较合适，因此 fileencoding 建议设置为 chinese (chinese 是个别名，在 Unix 里表示 gb2312，在 Windows 里表示cp936，也就是 GBK 的代码页)。

termencoding这个属性只是告诉vim编辑器terminal使用的是何种编码，从而使vim知道需要不要将buffer里按照encoding编码的内容转化为termencoding编码对应的编码格式进行显示，如果一个terminal实际上使用的是gbk编码，而vim得encoding和termencoding都设置为utf-8的话，在前台显示就会乱码，因为terminal的实际编码和encoding以及termencoding设置的不同，如果将termencoding改为gbk的话就能够显示正常，这是vim就知道需要将encoding为utf-8的buffer内容转化为gbk的内容再提交给前台显示

0 0