Python2 之汉字编码为unicode问题(即类似\xc3\xa4)
来源:互联网 发布:慈溪行知职业技术学校 编辑:程序博客网 时间:2024/06/18 04:15
Python2中编码相关的问题很是让人蛋疼,特别是中文字符。
比如本文所述的中文网页GBK编码的诡异问题。
现象
例如:盲录職氓聭聵
,其实网页里面正常的应该是会员
分析
接着上面的例子,会员
这部分乱码通过repr()
函数求值得到如下结果
\xc3\xa4\xc2\xbc\xc2\x9a\xc3\xa5\xc2\x91\xc2\x98
使用type()
函数求值得到的结果为unicode
eval(repr())
出来值为
盲录職氓聭聵
通过查表上述6个汉字对应 c3a4 c2bc c29a c3a5 c291 c298
而上面内容对应的UTF-8值就是会员
解决方法
相当诡异的是本身是unicode编码,却被当作GBK系列来解码,结果导致乱码。因此将这些字符先编码再解决解决问题。 encode('raw_unicode_escape').decode()
阅读全文
1 0
- Python2 之汉字编码为unicode问题(即类似\xc3\xa4)
- 汉字编码及相关问题(unicode,ansi,gb2312)
- 汉字编码及相关问题(unicode,ansi,gb2312)
- 汉字编码及相关问题(unicode,ansi,gb2312)
- Python2 中文unicode乱码问题
- 汉字编码问题(转)
- 汉字编码问题(转)
- 汉字编码问题(转)
- Servlet之Cookies汉字编码问题
- python 转换为json时候 汉字编码问题
- 汉字编码在Unicode区间
- python2 字符串unicode str编码解码问题
- Python2 Unicode
- 汉字编码问题
- 汉字编码问题
- 汉字编码问题
- 汉字编码问题
- 汉字编码问题
- 一个ajax上传文件的简单案例
- java反转字符串
- Codeforces Round #397 B
- stm32F205程序移植到stm32F405片子,使用FPU时注意事项
- Mac OS X 安装 Consolas 字体
- Python2 之汉字编码为unicode问题(即类似\xc3\xa4)
- 分页
- C#--Winform项目核心模块--考勤模块(三)
- 忍
- KMP算法实现
- robot framework 的AutoItLibrary常用关键字
- POJ 1131 0ms通过测试;
- BZOJ-4034: [HAOI2015]树上操作 (树链剖分 入门题 子树整体修改 线段树 区间修改+查询)
- 《送你一颗子弹》精彩文章