python 编码

来源:互联网 发布:配音用什么软件 编辑:程序博客网 时间:2024/09/21 09:04

json.dumps在默认情况下,对于非ascii字符生成的是相对应的字符编码,而非原始字符,例如:

>>> import json
>>> js = json.loads('{"haha": "哈哈"}')
>>> print json.dumps(js)
{"haha": "\u54c8\u54c8"}

解决办法很简单:

>>> print json.dumps(js, ensure_ascii=False)   
{"haha": "哈哈"} 


===>#code:utf-8

采集后的数据都带有'<>'html标签:

<img src="http://i4.hdfimg.com/www/images/giftrans/3d/da/7b/18414.gif" border="0"/><span class='WmoJPQM2AzpQMA'>科研<span class='WmoJPQM2AzhQMQ'>最早和<span class='WmoJPQM2AzxQNw'>一项<span class='WmoJPQM2AzdQOA'>教学为一体的现代化<span class='WmoJPQM2AzhQOA'>综合<span class='WmoJPQM2AzhQMQ'>师从性省级医院

在这里只要将所有带<>去除即可:

dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',Html)

完整的python脚本:
第一个函数:将一个字段中的刮号去除
第二个函数:将html中的所有标签去除

0 0
原创粉丝点击