Java 解决采集UTF-8网页空格变成问号乱码
来源:互联网 发布:国内微电网数据统计 编辑:程序博客网 时间:2024/06/02 17:22
问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符,因此如果简单地进行编码转换,生成地GB2312/Unocode字符串中,这个字符就会被替换成为问号(ASCII ox3F)。此时如果进行写库、写文件之类,就会把问号直接写入了。当然此时会有一种山寨方式:直接替换问号为空格。可是这种方法,会把原本真正的问号也*毙掉。
使用UTF-8进行HTMLDecode的时候,对于语句开头的( ),就会被自动转换成为这个特殊的空格,可能是判断为放在开头的空格,一定是用来排版的。在转换为其他编码之前,这个特殊的空格受到的待遇与普通的半角空格是一致的,甚至也会被trim()去掉。
因此,碰到这个问题的原因有两种:一种是在UTF-8编码下进行了转换,产生了这个字符;还有一种就是网页中直接采用了这个字符进行排版。
byte bytes[] = {(byte) 0xC2,(byte) 0xA0}; String UTFSpace = new String(bytes,"utf-8"); html = html.replaceAll(UTFSpace, " ");
这样做,就不会把串里面本来应该有的问号错误的替换为空格。也不会看到讨厌的问号,能保存原来字符串的真面目了。
需要强调的是,替换之前不能进行编码转换,一定要继续使用UTF-8编码。如果已经转换成其他编码,那么错误就已经不可逆转了。没有办法再区分这个错误的问号和正常的问号之间的差别了。
0 0
- Java 解决采集UTF-8网页空格变成问号乱码
- Java 解决采集UTF-8网页空格变成问号乱码
- Java 解决采集UTF-8网页空格变成问号乱码
- Java 解决采集UTF-8网页空格变成问号乱码
- Java 解决采集UTF-8网页空格变成问号乱码
- 转载:解决采集UTF-8网页空格变成问号乱码
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决
- java处理html空格变成问号问题
- java插入mysql乱码(变成问号)
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决;Java读带有BOM的UTF-8文件乱码原因及解决方法
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决;Java读带有BOM的UTF-8文件乱码原因及解决方法
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决;Java读带有BOM的UTF-8文件乱码原因及解决方法
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决;Java读带有BOM的UTF-8文件乱码原因及解决方法
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决;Java读带有BOM的UTF-8文件乱码原因及解决方法
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决;Java读带有BOM的UTF-8文件乱码原因及解决方法
- Java读取UTF-8格式文件第一行出现乱码——问号“?”及解决 And Java读带有BOM的UTF-8文件乱码原因及解决方法
- Java读取UTF-8格式txt文件第一行出现乱码——问号“?”及解决;Java读带有BOM的UTF-8文件乱码原因及解决方法
- hadoop集群启动后,两个namenode都是standby
- 学生信息管理系统
- BroadcastReceiver 启动activity(在activity之外启动一个activity)
- 研发流程学习
- <c:forEach varStatus="status">中 varStatus的属性简介
- Java 解决采集UTF-8网页空格变成问号乱码
- opencv 示例
- 聊聊并发 深入分析ConcurrentHashMap
- CUDA系列学习(五)GPU基础算法: Reduce, Scan, Histogram
- 2017规划
- 多线程访问共享区示例
- Android Studio新建assets文件即放置
- 移动端常用的框架
- jsp中<c:forEach varStatus="status">的属性值问题