简单的商品信息爬虫——爬易迅网
来源:互联网 发布:百度地图排名优化方法 编辑:程序博客网 时间:2024/05/20 23:59
收集到很多易迅网的商品ID,于是想把这些ID对应的商品信息爬下来。通过简单分析发现,易迅网的各类信息都是直接放在HTML页面上,所以,解析一个页面就好了。
最后返回每个ID对应的商品url,标题,易迅价,促销价,类目 。
下面是python代码:
#!/usr/bin/env python#coding:utf-8'''Created on 2015年03月11日@author: zhaohf'''import urllib2from bs4 import BeautifulSoupdef get_yixun(id): price_origin,price_sale,category = '0','0','' url = 'http://item.yixun.com/item-' + id + '.html' html = urllib2.urlopen(url).read().decode('utf-8') soup = BeautifulSoup(html) title = unicode(soup.title.text.strip().strip(u'【价格_报价_图片_行情】-易迅网').replace(u'】','')).encode('utf-8').decode('utf-8') try: soup_origin = soup.find("dl", { "class" : "xbase_item xprice xprice_origin" }) price_origin = soup_origin.find("span", { "class" : "mod_price xprice_val" }).contents[1].text #易迅价 print 'price_origin: ' + price_origin except: pass try: soup_sale= soup.find('dl',{'class':'xbase_item xprice'}) price_sale = soup_sale.find("span", { "class" : "mod_price xprice_val" }).contents[1] #促销价 print 'price_sale: '+ price_sale except: pass try: category = unicode(soup.find('div',{'class','mod_crumb'}).text).encode('utf-8').decode('utf-8').replace('\n','') #所属类目 except: pass if not (price_origin is None or price_origin =='0'): print url + '\t'+ price_origin + '\t' + price_sale + '\t'+ category return url + '\t' + title +'\t'+price_origin+'\t'+price_sale+ '\t'+ category else: print url + '\t' + price_sale+ '\t' + price_sale + '\t' + category return url + '\t' + title +'\t'+price_sale+'\t'+price_sale+ '\t'+ category return None
0 0
- 简单的商品信息爬虫——爬易迅网
- 京东商品信息爬虫
- 商品信息的简单增删改查
- 基于Scrapy的爬虫爬取京东商品信息与评论
- python爬虫——写出最简单的网页爬虫
- Java多线程爬虫爬取京东商品信息
- 基于selenium和requests的京东商品信息和评论爬虫
- python爬虫实战(一)----------爬取京东商品信息
- 网站商品信息爬虫代码及详细注释
- 爬虫实践---Selenium-抓取淘宝搜索商品信息
- thinkphp——关于前台模板显示顶级栏目及二级栏目及对应的商品信息
- 关于商品信息的修改
- 商品信息
- python网络爬虫入门(一)——简单的博客爬虫
- python爬虫系列(1)——一个简单的爬虫实例
- Node.js 实现爬虫(1) —— 简单的爬虫程序
- 简单爬虫python实现02——BeautifulSoup的使用
- Java之——简单的网络爬虫实现
- 黑马程序员——java常用api
- Ubuntu 无线网络连接WIFI(b43驱动出现DMA问题的解决)
- 用java统计网站在线人数
- iOS开发笔记--使用UITextField自动格式化银行卡号
- int强制转char型问题理解
- 简单的商品信息爬虫——爬易迅网
- CentOS6.6下安装Redmine2.6并整合Apache2.4
- android gridview 行高设置
- c++ 十进制转换十六进制
- 黑马程序员——集合框架
- block 实现原理(内存管理详解)
- Activity的启动模式
- hdoj 1506&&1505(City Game) dp
- 单片机英文缩写的英文全称及中文名称