【python 淘宝爬虫】淘宝信誉分抓取
来源:互联网 发布:java面试葵花宝典 pdf 编辑:程序博客网 时间:2024/05/17 09:13
一、需求分析
输入旺旺号,获取淘宝卖家的信用分
二、思路
淘宝需要模拟登陆,我们这里抓不到,因此为了绕过登陆,发现了淘一兔,我们可以通过这里,得到淘宝卖家的信用分,结果是一样的。
http://www.taoyizhu.com/
输入旺旺号,需要点击查询,等待几秒,得到查询结果,这里我们用selienum 来做
三、实现源代码(抓取不能太快,否则抓不到)
# encoding: utf-8from selenium import webdriverimport sysreload(sys)sys.setdefaultencoding('utf-8')import pandas as pdimport timeimport retime1=time.time()driver=webdriver.PhantomJS(executable_path='D:\\Program Files\\Python27\\Scripts\\phantomjs.exe')driver.set_window_size(800, 600)########################读取数据############################data1=pd.read_excel(r'C:/taobao/taobao1.xlsx')print data1#######################查询店铺信誉分#############################seller_credit=[]for i in range(0,len(data1)): key=str(data1.iloc[i,0]) key1=key.decode("utf-8") driver.get("http://www.taoyizhu.com/") time.sleep(5) driver.find_element_by_id("txt_name").clear() driver.find_element_by_id("txt_name").send_keys(key1) driver.find_element_by_id('search_btn').click() time.sleep(3) html2 = driver.page_source seller_credit1 = re.findall('<span id="spanUserSellerCount">(.*?)</span>', html2, re.S) for each in seller_credit1: print key,each seller_credit.append(each)#######################################增加店铺信誉分这一列#############################data1['店铺信誉分']=seller_creditprint data1# 写出excelwriter = pd.ExcelWriter(r'C:\\taobao\\taobao1_all.xlsx', engine='xlsxwriter', options={'strings_to_urls': False})data1.to_excel(writer, index=False)writer.close()time2 = time.time()print u'ok,爬虫结束!'print u'总共耗时:' + str(time2 - time1) + 's'
阅读全文
1 0
- 【python 淘宝爬虫】淘宝信誉分抓取
- 【python 淘宝爬虫】python 淘宝店铺名称,旺旺,销售量 抓取
- 利用Python爬虫,抓取淘宝MM照片
- Python爬虫实战 抓取淘宝照片
- python 爬虫抓取淘宝MM照片
- Python爬虫实战:抓取淘宝MM照片
- Python爬虫实战:抓取淘宝MM照片
- python淘宝爬虫基于requests抓取淘宝商品数据
- PHP抓取淘宝店信誉实例 正则+Snoopy抓取框架
- python 淘宝MM抓取
- Python爬虫实战四之抓取淘宝MM照片
- Python爬虫:动态网页抓取淘宝“淘女郎”照片
- Python爬虫实战(4):抓取淘宝MM照片
- Python爬虫实战(4):抓取淘宝MM照片
- 一次Python爬虫的修改,抓取淘宝MM照片
- Python爬虫实战之抓取淘宝MM照片(一)
- Python爬虫实战之抓取淘宝MM照片(二)
- Python爬虫实战之抓取淘宝MM照片(三)
- 微服务框架Spring Cloud介绍 Part1: 使用事件和消息队列实现分布式事务
- java melody 如何整合nutzframework监控action方法?
- Linux环境下模拟实现sleep函数
- Bootstrap Paginator使用
- android中shape的使用
- 【python 淘宝爬虫】淘宝信誉分抓取
- File.separator 实现Windows和Linux文件路径中的斜线
- 直播营销系统搭建在公众号上有什么好处?
- gh0st远控源码图文详解Gh0st通信协议解析(1)
- Ubuntu下Android Studio环境搭建
- 安卓sqlite数据库简单的增删改查和数据库版本更新
- jdk1.8和TomCat7.x的环境配置
- 宏定义有无参数宏定义和带参数宏定义两种
- Transition(Activity切换过渡动画)