Java 解决采集UTF-8网页空格变成问号乱码

来源：互联网发布：九之濑遥cos淘宝全套编辑：程序博客网时间：2024/05/23 19:02

最近认真去查了一下这个问题，发现问题的关键，是编码方式：如果使用的Encoding是UTF-8的话，就会发生这种情况。

问题的根源，在于UTF-8这种编码里面，存在一个特殊的字符，其编码是“0xC2 0xA0”，转换成字符的时候，表现为一个空格，跟一般的半角空格（ASCII 0x20）一样，唯一的不同是它的宽度不会被压缩，因此比较多的被用于网页排版（如首行缩进之类）。而其他的编码方式如GB2312、Unicode之类并没有这样的字符，因此如果简单地进行编码转换，生成地GB2312/Unocode字符串中，这个字符就会被替换成为问号（ASCII ox3F）。此时如果进行写库、写文件之类，就会把问号直接写入了。当然此时会有一种山寨方式：直接替换问号为空格。可是这种方法，会把原本真正的问号也*毙掉。
使用UTF-8进行HTMLDecode的时候，对于语句开头的（ ），就会被自动转换成为这个特殊的空格，可能是判断为放在开头的空格，一定是用来排版的。在转换为其他编码之前，这个特殊的空格受到的待遇与普通的半角空格是一致的，甚至也会被trim()去掉。
因此，碰到这个问题的原因有两种：一种是在UTF-8编码下进行了转换，产生了这个字符；还有一种就是网页中直接采用了这个字符进行排版。
知道了具体原因，就有正规的解决方法了。方法就是：在得到UTF-8字符串之后，先进行一个替换，把这个特殊的空格替换为普通的空格，如果是HTML串，建议替换为（ ）。

C#代码如下：

byte[] space = new byte[]{0xc2,0xa0}; string UTFSpace = Encoding.GetEncoding("UTF-8").GetString(space); HtmlStr = HtmlStr.Replace(UTFSpace," ");

还有一类空格 utf8 的编码

UTF-16 (hex) 0x200B

UTF-8 (hex) 0xE2 0x80 0x8B (e2808b)

byte[] space = new byte[]{0xE2,0x80,0x8B}; string UTFSpace = Encoding.GetEncoding("UTF-8").GetString(space); HtmlStr = HtmlStr.Replace(UTFSpace," ");

阅读全文

0 0