python3[爬虫实战] 使用selenium,xpath爬取京东手机(上)
来源:互联网 发布:免费.tk域名的注册 编辑:程序博客网 时间:2024/06/08 11:29
当然了,这个任务也是从QQ群里面接过来的,主要是想提升自己的技术,一接过来是很开心的,但是,接完之后,写了又写,昨晚写了3小时,前提晚上写了2小时,搞的有些晚了,搞来搞去就卡在一个地方了,希望懂的大神们多帮忙指点一下,
使用selenium ,可能感觉用的并不是很深刻吧,可能是用scrapy用多了的缘故吧。不过selenium确实强大,很多反爬虫的都可以用selenium来解决掉吧。
好了,扯得蛋好疼,开始下文吧,首先,我们爬取的内容:
没错,我们爬取的就是这些数据,当然就是指定这款手机了。包括手机的价格,手机的链接,当然了, 手机标题文字,什么的也都可以进行爬取,这里主要讲的是使用selenium 爬取京东上的手机商品信息
思路:
入口:
这里使用的Chrome 浏览器,方便能看到信息是否录入正确,
这里,我们首先找到输入框,然后填上 zuk z2 手机 然后再找到 搜索按钮,选中点击后, 然后再找到zuk z2手机(蓝色的字体)
这样子点完之后,我们就会出现第一页的那个图片,显示的手机商品信息
这样子我们就把整个逻辑走完了,剩下的就交给代码了,里面的注释还算详细。
# -*- coding: utf-8 -*-# @Time : 2017/9/18 19:52# @Author : 蛇崽# @Email : 17193337679@163.com# @File : TaoBaoZUK1.py 联想zuk z1 手机评论信息爬取import reimport timefrom selenium import webdriverimport osfrom lxml import etreechromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"browser = webdriver.Chrome(chromedriver)url = "https://www.jd.com/"browser.get(url)time.sleep(5)#手机号登录phoneLogin = browser.find_element_by_xpath('//*[@id="key"]')phoneLogin.send_keys('ZUK Z2手机')time.sleep(3)# 搜索btnNext = browser.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')btnNext.click()# 找到手机一栏time.sleep(3)btnPhone = browser.find_element_by_xpath('//*[@id="J_searchWrap"]/div[2]/a')btnPhone.click()page = browser.page_sourcehtml = etree.HTML(page)links = html.xpath("//*[@id='J_goodsList']/ul[@class='gl-warp clearfix']")print('links',links)for link in links: verlink = link.xpath("./li[@class='gl-item']/div[@class='gl-i-wrap']/div[@class='p-img']/a/@href") price = link.xpath("./li[@class='gl-item']/div[@class='gl-i-wrap']/div[@class='p-price']/strong/text()") print(price) print(verlink)print(len(links))
这里控制台打印了一下链接信息(需求如此):
整个爬虫过程就完了, 这些算简单的新手爬京东商品信息的demo,喜欢的可以点个赞。
项目已上传到github上了。
阅读全文
0 0
- python3[爬虫实战] 使用selenium,xpath爬取京东手机(上)
- python3[爬虫实战] 使用selenium,xpath爬取京东手机(下)
- python3[爬虫实战] 使用selenium,xpath爬取京东手机(下)
- python3 [爬虫实战] 微博爬虫京东客服之Selenium + Chrom浏览器的使用(上)
- python3 [爬虫入门实战]爬虫之selenium 安装设置与初步使用
- python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb
- python3 [入门基础实战] 爬虫入门之xpath的学习
- python3 [爬虫实战] selenium + requests 爬取安居客
- python3 [爬虫实战] selenium + requests 爬取安居客
- python3爬虫实战(3)
- python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)
- 【Python3.6爬虫学习记录】(七)使用Selenium+ChromeDriver爬取知乎某问题的回答
- Selenium XPATH使用
- Selenium中使用XPath
- selenium -- Xpath 使用
- Python3爬虫实战之爬取京东图书图片
- python3 [入门基础实战] 爬虫入门之xpath爬取脚本之家python栏目
- python爬虫实战笔记---selenium爬取QQ空间说说并存至本地(上)
- Spring之AOP的两种配置方式
- Apache Beam简介
- how 2 make screen shot for app
- 快用markdown写一篇博客吧
- 【总结】公钥加密私钥解密/私钥加密公钥机密验证
- python3[爬虫实战] 使用selenium,xpath爬取京东手机(上)
- usaco1.1你的飞碟在这儿
- 游戏开发流程
- poj 1273 Drainage Ditches【最大流 dinic】
- 函数返回值、引用和指针的区别思考
- 详解js中的setTimeout()函数
- 文章标题
- 概率性算法
- 判断两个循环链表内容是否相等