中文乱码辨识
来源:互联网 发布:数据库图书管理系统 编辑:程序博客网 时间:2024/05/16 07:07
在软件开发中常常会碰到中文乱码。有时我们不知道该文件的正确编码是什么,会使用文本编辑器(如UltraEdit)来尝试所有可能的编码。然而,乱码本身也有一定的规律,从乱码的样子大致可以得知正确的编码类型。在此给出各种编码的字符串被错误解析时的样子。
以下面语句为例:
这是一个字符集测试,作者为Harttle。
以UTF-8编码
以下列编码解析的显示结果:
BIG-5
餈口口銝€銝芸?蝚阡?瘚口?嚗口??口蛹Harttle??ASCII
???????????????????????????????????????Harttle???GBK
杩欐槸涓€涓瓧绗﹂泦娴嬭瘯锛屼綔鑰呬负Harttle銆?Unicode
뿨꾘룤ꪸ귥ꚬ鯩讵꿨貼뷤薀룤䢺牡瑴敬胣�
以GBK编码
以下列编码解析的显示结果:
BIG-5
涴岆珨跺趼睫摩聆彸ㄛ釬氪峈Harttle﹝UTF8
����һ���ַ������ԣ�����ΪHarttle��Unicode
쟊믒훗﮷꾼퓊겣�慈瑲汴ꅥ�ASCII
??????????????????????????Harttle??
以Unicode编码
以下列编码解析的显示结果:
BIG-5
?/f口N*NW[&?Km? 口\O:NH口a口r口t口t口l口e口0UTF8
'/f口N*NW[&{lKmՋ �\O�:NH口a口r口t口t口l口e口0UTF32
�����������GBK
購/f口N*NW[&{茤Km諎 口\O€:NH口a口r口t口t口l口e口0
规律
错误地选择ASCII显示时,问号居多,ASCII字符255个也很容易识别。
错误地选择UTF8、UTF16显示时,会出来很多��
错误地选择GBK显示时,会出现很多不常见的繁体字
如果你在做相似的工作,可能需要查询代码页:Wikipedia-Code_page
除非注明,本博客文章均为原创,转载请以链接形式标明本文地址: http://harttle.com/2015/05/11/unreadable-code.html
- 中文乱码辨识
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- 中文乱码
- hdu1022(Train Problem I)----- 典型栈类题目
- PHPCMS 目录结构
- UVALive - 4329 Ping pong (树状数组)
- Ubuntu 学习笔记
- poj 2002 正方形个数 (对点的hash 存储)
- 中文乱码辨识
- intellij idea 修改背景保护色&&修改字体&&快捷键大全
- Windows/Linux远程桌面
- POJ_2352_Stars
- UI018---UITableView使用
- PBOC交易过程详解
- delphi之模拟点击网页中的按钮
- HDOJ1394 Minimum Inversion Number(线段树)
- 命名管道客户端及服务器端简单代码示例