scrapy 乱码
来源:互联网 发布:手机淘宝可以秒杀吗 编辑:程序博客网 时间:2024/06/06 07:40
http://www.addbook.cn/blog/scrapy%E4%B8%AD%E6%96%87%E7%BC%96%E7%A0%81%E9%97%AE%E9%A2%98
http://www.pythonclub.org/python-basic/codec
————————————————————————————————————————————————————————————————
中文乱码问题
先安装一个chardet:
pip2.7 install chardet
在程序中判断一下输入并转码输出:
text = response.bodycontent_type = chardet.detect(text)if content_type['encoding'] != 'UTF-8': text = text.decode(content_type['encoding'])text = text.encode('utf-8')
Scrapy默认读取的内容ascii编码,而对中文不言而喻会出错,中文三大编码,后面的标准是前面标准的扩展。
GB2312 < GBK < GB18030
Scrapy项目获取文本编码的方法有:
1. 安装chardet第三方包,chardet.dectet()。
2. import chardetect,好像其是封装chardet包。
3. Scrapy返回内容 response.encoding属性。
其中response.encoding返回可能不很准,如把gbk标成gb18030。而chardet或chardetect也不保证100%正确,且传给chardet.dectet()不是文件名,是字符串,若是大文件,则判断成本很高。
暂时不知真正高效的方法。
为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题。
decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。
因此,转码的时候一定要先搞明白,字符串str是什么编码,然后decode成unicode,然后再encode成其他编码
代码中字符串的默认编码与代码文件本身的编码一致。
如:s='中文'
如果是在utf8的文件中,该字符串就是utf8编码,如果是在gb2312的文件中,则其编码为gb2312。这种情况下,要进行编码转换,都需要先用decode方法将其转换成unicode编码,再使用encode方法将其转换成其他编码。通常,在没有指定特定的编码方式时,都是使用的系统默认编码创建的代码文件。
如果字符串是这样定义:s=u'中文'
则该字符串的编码就被指定为unicode了,即python的内部编码,而与代码文件本身的编码无关。因此,对于这种情况做编码转换,只需要直接使用encode方法将其转换成指定编码即可。
如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断:
isinstance(s, unicode) #用来判断是否为unicode
用非unicode编码形式的str来encode会报错
如何获得系统的默认编码?
#!/usr/bin/env python
#coding=utf-8
import sys
print sys.getdefaultencoding()
该段程序在英文WindowsXP上输出为:ascii
在某些IDE中,字符串的输出总是出现乱码,甚至错误,其实是由于IDE的结果输出控制台自身不能显示字符串的编码,而不是程序本身的问题。
如在UliPad中运行如下代码:
s=u"中文"
print s
会提示:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。这是因为UliPad在英文WindowsXP上的控制台信息输出窗口是按照ascii编码输出的(英文系统的默认编码是ascii),而上面代码中的字符串是Unicode编码的,所以输出时产生了错误。
将最后一句改为:print s.encode('gb2312')
则能正确输出“中文”两个字。
若最后一句改为:print s.encode('utf8')
则输出:\xe4\xb8\xad\xe6\x96\x87,这是控制台信息输出窗口按照ascii编码输出utf8编码的字符串的结果。
unicode(str,'gb2312')与str.decode('gb2312')是一样的,都是将gb2312编码的str转为unicode编码
使用str.__class__可以查看str的编码形式
原理说了半天,最后来个包治百病的吧:)
#!/usr/bin/env python
#coding=utf-8
s="中文"
if isinstance(s, unicode):
#s=u"中文"
print s.encode('gb2312')
else:
#s="中文"
print s.decode('utf-8').encode('gb2312')
- scrapy 乱码
- Scrapy中文乱码解决
- Scrapy使用过程中的中文乱码问题
- scrapy生成json中文乱码解决
- scrapy抓取中文输出乱码解决方案
- scrapy中解决中文乱码问题
- Python:Scrapy中出现的乱码问题
- scrapy抓取的中文结果乱码解决办法
- scrapy
- Scrapy
- scrapy
- Scrapy
- Scrapy
- Scrapy
- Scrapy
- Scrapy
- scrapy
- Scrapy
- HDU 水题 2019 2020 2021 2022 2023 2024 2025 2026 2027
- 分布式系统阅读笔记(十三)-----命名服务
- 依存句法分析
- 《机器学习实战》读书笔记 第四章 朴素贝叶斯(part 1)
- java equals
- scrapy 乱码
- MC9S08DZ60单片机测量时间的问题
- 安卓 word文档读取jar集
- 网页截图利器——不分享对不起自己啊
- 判断一个数据是否是2的幂的方法
- 一些VC的快捷键以及调试技巧
- 快排对二维字符排序
- eclipse 插件的开发,带分析,让你五分钟明白插件开发
- Struts2标签库讲解