Python 与 淘宝Taobao

来源:互联网 发布:个人在淘宝开店流程 编辑:程序博客网 时间:2024/04/30 17:58

看到这个题目,大概你是想不清楚为什么 Python 这个技术 和 淘宝这个电子商务网站 能搭上关系的。呵呵,且听我说。
    前阵子写了个python程序,抓取淘宝网页的内容进行分析。大家是否觉得这样的程序太过于简单,不值得写呢。
    我一开始也这样觉得,但是偏偏python对字符集的支持不够让我痛苦。
    且看代码:
#encoding=utf-8
import urllib2
response = urllib2.urlopen("http://s.taobao.com/search?q=%BC%F5%B7%CA")
html = response.read()
print html

   在windows的命令行界面中,这样显示出来的结果是正常的,即没有出现乱码的问题。大家一定想,这样就没有问题了不是。其实不然,看下一段代码:

  1. soup = BeautifulSoup(html)
  2. a = soup.find('div',{'id':'J_Navgation'})
  3. title = a['_title']
复制代码

  经过这样一段处理,就不是中文了。是乱码。为什么呢?我还不清楚,要是有高手知道,请不吝赐教。
   经过长时间地查资料,使用 chardet 查了这个问题 ,发现字符集是 gbk,于是使用如下代码:

  1. self.soup = BeautifulSoup(html.decode('gbk','ignore'))
  2. a = soup.find('div',{'id':'J_Navgation'})
  3. title = a['_title']
  4. title = title.decode('gbk').encode('utf-8')
复制代码

  这样子虽然在 cmd 下显示仍然乱码,可是进数据库后,就可以正常了。但是问题是,经常出现 exception, 说无法解码。最后颇为戏剧性地是,我发现这个问题其实很好解决

  1. title = unicode(title)
复制代码

  这样就解决了所有问题。唉,绕了一圈,原来这样简单。  希望对碰到乱码的朋友有所帮助!

 

 转载自: 米趣网