使用Java代码过滤掉乱码字符
来源:互联网 发布:软件架构示意图 编辑:程序博客网 时间:2024/06/03 19:38
转自:http://www.cnblogs.com/en-heng/p/5320024.html
最近在日志数据清洗时遇到中文乱码,如果只要有非中文字符就将该字符串过滤掉,这种方法虽简单但并不可取,因为比如像Xperia™主題
、天天四川麻将Ⅱ
这样的字符串也会被过滤掉。
1. Unicode编码
Unicode编码是一种涵盖了世界上所有语言、标点等字符的编码方式,简单一点说,就是一种通用的世界码;其编码范围:U+0000 .. U+10FFFF
。按Unicode硬编码的区间进行划分,Unicode编码被分成若干个block ( Unicode block);每一个Unicode编码专属于唯一的Unicode block,Unicode block之间互不重叠。从码字的本身的属性出发,Unicode编码被分成了若干script ( Unicode script);比如,与中文相关的字符、标点的scriptHan
包括block如下:
- CJK Radicals Supplement
- Kangxi Radicals
- CJK Symbols and Punctuation中的15个字符
- CJK Unified Ideographs Extension A
- CJK Unified Ideographs
- CJK Compatibility Ideographs
- CJK Unified Ideographs Extension B
- CJK Unified Ideographs Extension C
- CJK Unified Ideographs Extension D
- CJK Unified Ideographs Extension E
- CJK Compatibility Ideographs Supplement
其中,常见的中文字符在CJK Unified Ideographs
block;此外,考虑繁体字及不常见字等,CJK还有A、B、C、D、E五个extension。Basic Latin block完整地包含了ASCII码的控制字符、标点字符与英文字母字符。
Unicode编码与block、script之间的映射关系,具体可参看这里。
2. Java的字符编码
JDK完整实现Unicode的block与script:
Char c = '☎'Character.UnicodeBlock ub = Character.UnicodeBlock.of(c)Character.UnicodeScript uc = Character.UnicodeScript.of(c);
Java中的字符char内置的编码方式是UTF-16,当char强转成int类型时,其返回值是unicode编码值,只有当getbyte时才返回的是utf-8编码的byte:
String s = "\u00a0";String.format("\\u%04x", (int) s.charAt(0)) // --> \u00a0import org.apache.commons.codec.binary.Hex;Hex.encodeHex(s.getBytes()) // --> c2a0
UTF-8是Unicode字符的变长前缀编码的一种实现,二者之间的对应关系在这里.现在我们回到开篇过滤中文乱码的问题,有一个基本解决思路:
- 去掉各种标点字符、控制字符,
- 计算剩下字符中非中文字符所占的比例,如果超过阈值,则认为该字符串为乱码串
完整代码如下:
public class ChineseUtill { private static boolean isChinese(char c) { Character.UnicodeScript sc = Character.UnicodeScript.of(c); if (sc == Character.UnicodeScript.HAN) { return true; } return false; } public static boolean isPunctuation(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c); if ( // punctuation, spacing, and formatting characters ub == Character.UnicodeBlock.GENERAL_PUNCTUATION // symbols and punctuation in the unified Chinese, Japanese and Korean script || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION // fullwidth character or a halfwidth character || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS // vertical glyph variants for east Asian compatibility || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS // vertical punctuation for compatibility characters with the Chinese Standard GB 18030 || ub == Character.UnicodeBlock.VERTICAL_FORMS // ascii || ub == Character.UnicodeBlock.BASIC_LATIN ) { return true; } else { return false; } } private static Boolean isUserDefined(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c); if (ub == Character.UnicodeBlock.NUMBER_FORMS || ub == Character.UnicodeBlock.ENCLOSED_ALPHANUMERICS || ub == Character.UnicodeBlock.LETTERLIKE_SYMBOLS || c == '\ufeff' || c == '\u00a0' ) return true; return false; } public static Boolean isMessy(String str) { float chlength = 0; float count = 0; for(int i = 0; i < str.length(); i++) { char c = str.charAt(i); if(isPunctuation(c) || isUserDefined(c)) continue; else { if(!isChinese(c)) { count = count + 1; } chlength ++; } } float result = count / chlength; if(result > 0.3) return true; return false; } }
为了得到更为完整的可接受的字符表,定义isUserDefined
方法(具体字符表与日志中的字符有关系);加上了Number Forms、Enclosed Alphanumerics、Letterlike Symbols这三个block,以及\u00a0
(Non-breaking space)字符与\ufeff
(ZERO WIDTH NO-BREAK SPACE)字符。
3. 参考资料
[1] Wikipedia, Unicode block.
[2] Tong Zeng, Java 中文字符判断 中文标点符号判断.
- 使用Java代码过滤掉乱码字符
- java过滤掉html字符
- Java键盘字符乱码判断代码
- Java过滤器过滤乱码
- java字符串乱码过滤
- 使用HashSet过滤掉重复的字符
- Java 过滤不安全字符
- java过滤特殊字符
- java过滤非法字符
- java 过滤特殊字符
- java 过滤特殊字符
- java 过滤特殊字符
- JAVA过滤特殊字符
- Java 过滤特殊字符
- java过滤特殊字符
- java过滤特殊字符
- java 使用正则来过滤字符串中的特殊字符
- java 使用正则来过滤字符串中的特殊字符
- 文章标题
- Linux 查看系统配置信息的常用命令
- 二叉树遍历
- Hadoop2.6.4集群搭建
- 欢迎使用CSDN-markdown编辑器
- 使用Java代码过滤掉乱码字符
- CF 219D Choosing Capital for Treeland 【树形dp + 思维】
- postman的安装和用法
- NumPy的详细教程
- 加解密学习:简单的用户名密码组合式验证程序的解密流程
- 前端模块化 require js
- ORA-39002,ORA-39070,ORA-29283, ORA-06512,ORA-29283解决办法
- 国庆清北刷题冲刺班 Day3 下午
- javascript插入before(),after()新DOM方法