Python 与 淘宝Taobao
来源:互联网 发布:个人在淘宝开店流程 编辑:程序博客网 时间:2024/04/30 17:58
看到这个题目,大概你是想不清楚为什么 Python 这个技术 和 淘宝这个电子商务网站 能搭上关系的。呵呵,且听我说。
前阵子写了个python程序,抓取淘宝网页的内容进行分析。大家是否觉得这样的程序太过于简单,不值得写呢。
我一开始也这样觉得,但是偏偏python对字符集的支持不够让我痛苦。
且看代码:
#encoding=utf-8
import urllib2
response = urllib2.urlopen("http://s.taobao.com/search?q=%BC%F5%B7%CA")
html = response.read()
print html
在windows的命令行界面中,这样显示出来的结果是正常的,即没有出现乱码的问题。大家一定想,这样就没有问题了不是。其实不然,看下一段代码:
- soup = BeautifulSoup(html)
- a = soup.find('div',{'id':'J_Navgation'})
- title = a['_title']
经过这样一段处理,就不是中文了。是乱码。为什么呢?我还不清楚,要是有高手知道,请不吝赐教。
经过长时间地查资料,使用 chardet 查了这个问题 ,发现字符集是 gbk,于是使用如下代码:
- self.soup = BeautifulSoup(html.decode('gbk','ignore'))
- a = soup.find('div',{'id':'J_Navgation'})
- title = a['_title']
- title = title.decode('gbk').encode('utf-8')
这样子虽然在 cmd 下显示仍然乱码,可是进数据库后,就可以正常了。但是问题是,经常出现 exception, 说无法解码。最后颇为戏剧性地是,我发现这个问题其实很好解决
- title = unicode(title)
这样就解决了所有问题。唉,绕了一圈,原来这样简单。 希望对碰到乱码的朋友有所帮助!
转载自: 米趣网
- Python 与 淘宝Taobao
- 淘宝(taobao)HSF框架
- 淘宝(taobao)HSF框架
- 淘宝(taobao)HSF框架
- taobao淘宝api for pb12
- taobao 淘宝API winform json
- 淘宝开源平台(taobao
- taobao 登录功能代码 淘宝
- 淘宝王琤:Taobao JVM的性能优势与价值体现
- 淘宝王琤:Taobao JVM的性能优势与价值体现
- taobao API open淘宝 错误码一览表
- 淘宝taobao sdk 2.0去除lotusphp
- Taobao ID:淘宝OAuth2.0服务
- 淘宝(taobao)架构发展历程及…
- taobao maven mirror 淘宝maven镜像
- taobao
- TAOBAO
- taobao
- Flex最精准画点线算法
- Android学习进程(四):对话框
- 关于原型开发的一些感触
- Python 插件杂谈 (1) ---- chardet
- 开发人员应该用好的一些网站 收藏
- Python 与 淘宝Taobao
- SQL2005数据库示例的安装
- View: VISIBLE,INVISIBLE,GONE的区别
- 今天感觉要下雨了!!!
- 使用 Flex 呈现可缩放矢量图形和位图
- SQL语言(一)
- Android学习进程(五):Activity注册
- JSP彩色验证码
- JSP彩色验证码