Python 与淘宝Taobao

来源：互联网发布：个人在淘宝开店流程编辑：程序博客网时间：2024/04/30 17:58

看到这个题目，大概你是想不清楚为什么 Python 这个技术和淘宝这个电子商务网站能搭上关系的。呵呵，且听我说。
前阵子写了个python程序，抓取淘宝网页的内容进行分析。大家是否觉得这样的程序太过于简单，不值得写呢。
我一开始也这样觉得，但是偏偏python对字符集的支持不够让我痛苦。
且看代码:
#encoding=utf-8
import urllib2
response = urllib2.urlopen("http://s.taobao.com/search?q=%BC%F5%B7%CA")
html = response.read()
print html

在windows的命令行界面中，这样显示出来的结果是正常的，即没有出现乱码的问题。大家一定想，这样就没有问题了不是。其实不然，看下一段代码：

soup = BeautifulSoup(html)
a = soup.find('div',{'id':'J_Navgation'})
title = a['_title']

复制代码

经过这样一段处理，就不是中文了。是乱码。为什么呢？我还不清楚，要是有高手知道，请不吝赐教。
经过长时间地查资料，使用 chardet 查了这个问题，发现字符集是 gbk,于是使用如下代码:

self.soup = BeautifulSoup(html.decode('gbk','ignore'))
a = soup.find('div',{'id':'J_Navgation'})
title = a['_title']
title = title.decode('gbk').encode('utf-8')

复制代码

这样子虽然在 cmd 下显示仍然乱码，可是进数据库后，就可以正常了。但是问题是，经常出现 exception, 说无法解码。最后颇为戏剧性地是，我发现这个问题其实很好解决

title = unicode(title)

复制代码

这样就解决了所有问题。唉，绕了一圈，原来这样简单。希望对碰到乱码的朋友有所帮助！

转载自：米趣网

Python 与 淘宝Taobao

Python 与淘宝Taobao