中文字符乱码

来源：互联网发布：拓维信息怎么样知乎编辑：程序博客网时间：2024/05/02 00:09

问: 当用JDBC向数据库中插入数据或从数据库中提取数据时,为何有时中文字符会显示为乱码?
答:
这个问题的实现通常与各个JDBC driver的实现有关. 目前大多数JDBC driver采用本地编码格式来传输中文字符,例如中文字符"0x4175"会被转成"0x41"和"0x75"进行传输. 因此我们需要对JDBC driver返回的字符以及要发给JDBC driver的字符进行转换.
当用JDBC driver向数据库中插入数据时,需要先将Unicode转成native code; 当 JDBC driver从数据库中查询数据时,则需要将native code转换成Unicode. 下面给出了这两种转换的实现:

String native2Unicode(String s) {
if (s == null || s.length() == 0) {
return null;
}
byte[] buffer = new byte[s.length()];
for (int i = 0; i s.length(); i++) { if (s.charAt(i)>= 0x100) {
c = s.charAt(i);
byte []buf = (""+c).getBytes();
buffer[j++] = (char)buf[0];
buffer[j++] = (char)buf[1];
}
else {
buffer[j++] = s.charAt(i);
}
}
return new String(buffer, 0, j);
}
除使用以上两个方法之外,有些JDBC driver如果对jdbc driver Manager设置了正确的字符集属性,以上2个方法就不需要了.

windows记事本可以将文件内容保存为以下四种编码方式：
1、ANSI，不用说了
2、UNICODE，头两个字节内容为   0xFF   0xFE，对应为   UTF-16LE
3、UNICODE   big   endian，文字同样为UNICODE编码，只是字节顺序同2相反，以   0xFE   0xFF   开头，对应为   UTF-16BE
4、UTF-8，这种编码方式在＜JAVA核心技术   I＞上面有讲述，头三个字节为0xEF   0xBB   0xBF,   对应为   UTF-8

处理过程中先读出前三个字节内容判断出编码方式，然后再进行转换。