python编码介绍及中文乱码过滤
来源:互联网 发布:计算机远程监控软件 编辑:程序博客网 时间:2024/04/29 10:24
使用python过滤文本中的乱码
应用场景
中文编码在任何一种编程语言里都是很坑的事情, python也难逃劫难!
最近项目需要使用python 对比两个json文件的某些字段是否有diff
涉及到用json.load()加载一个json文件,
但是如果文件中有中文乱码的时候, json.load会加载失败, 需要过滤掉这些非法的字符
我选择的方式是: 删除乱码字符,或者转换乱码字符为可读字符
原始文件
{"result":[{"dadualseganalysis":null,"info":null,"normal":{"danormalanalysis":{"ckdykzquery":null,"diyuquery":null,"dummy":0,"ecquery":null,"gssqa":null,"ip2regi
on":null,"newsrssequery":null,"qaquery":null,"qtquery":null,"quality":null,"rare":null,"reqextension":null,"rqtquery":null,"rssequery":null,"synquery":null,"tieb
atips":null,"time_new":null,"timequery":null,"zhidaotips":null},"disp_data_query_ex":null,"diyuqeryanalysis":null,"domainanalysis":null,"dummy":0,"guanlianquerya
naysisy":null,"jiucuoqueryanaysisy":null,"omitquery":null,"queries":null,"zhidaqueryanalysis":null},"orig_query":"\u7a7f ^O?"}]}
红色高亮的部分是中文乱码, 最愁人的是前一个字是正常的中文字符, 后面一个是乱码
此时json.load加载会报错, 所以需要处理非法字符
ps: \u7a7f 是 中文的unicode编码形式
python编码转换
python中处理不同编码建议的方式是:
- 首先知道原始数据的编码, 如果不知道那就尝试下吧, 原始数据为 ori_data
- 把原始数据 ori_data 转码为 unicode
- 把unicode转码为其他想要的编码形式, 比如gb18030, utf-8
#!/usr/bin/python# _*_ coding: utf-8 -*-import os,sysimport jsonimport codecsreload(sys)sys.setdefaultencoding("utf-8")filename="123.txt"desname="123.utf8"ff = open(filename, 'r')data = ff.read()# convert to unicode from gb18030# 原始编码是 gb18030, decode() 是把某种编码转换为 unicode编码data=data.decode("gb18030",'ignore')# delete illegal char, 删除非法字符# 因为以unicode编码的中文字符都是 '\u' 开头的, 不会有 '\x'delstr = `data`.replace('\\x','')</span># 重新生成python对象filterstr=eval(delstr)#转换为 utf-8编码data=filterstr.encode('utf-8')#写入目标文件desf=open(desname,"w")desf.write(data)desf.close()# convert from unicode to utf-8
- python编码介绍及中文乱码过滤
- Python 中文编码介绍
- Python字符编码 中文乱码
- python中文编码乱码问题
- Filter中对字符编码过滤解决中文乱码问题
- JSP中文乱码,及编码问题
- python使用requests爬取网页,遇到中文出现遇到中文出现乱码的编码问题及解决乱码的编码问题及解决
- python使用requests爬取网页,遇到中文出现乱码的编码问题及解决
- 邮件编码介绍及乱码的解决
- python在WIN下CMD运行中文乱码及python 2.x python 3.x编码问题
- python在WIN下CMD运行中文乱码及python 2.x python 3.x编码问题
- python中文编码问题深入分析(二):print打印中文异常及显示乱码问题分析与解决
- python字符串编码及乱码解决方案
- 中文乱码解决及中文编码成UTF8
- Python:文件读写及中文编码处理
- python 中中文编码及输出问题
- Python中使用中文及编码问题
- python 中文编码及显示问题
- 【JAVA学习】struts2的action中使用session的方法
- flex4 获取当前窗口的长度与宽度
- Effective C++:条款33:避免遮掩继承而来的名称
- PS cs5切片工具的使用
- Uboot启动参数说明:
- python编码介绍及中文乱码过滤
- 【Cocos2d-x 3.0开发】VS 2012 + NDK + ADT环境搭建
- 如何编写linux 守护进程
- 【OJ】---D---输入输出,保护继承
- Flex4 网页Application界面大小自适应屏幕
- C#泛型集合之Dictionary使用技巧
- 【评测】Android L初体验
- Oracle SqlPlus 中的方向键和退格键失效的解决办法
- 程序员生存定律--管理向左,技术向右