【爬虫】selenium解析网页
来源:互联网 发布:你凭什么看不起程序员 编辑:程序博客网 时间:2024/06/06 01:51
解析网页,获取关键信息,保存至本地或者数据库中。
selenium
from collections import OrdereDict #有序字典from selenuim import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom pyquery import PyQuery as pqbrowser = webdriver.Firefox()wait = WebDriverWait(browser,10)
def get_products(url): browser.get(url) wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #加载所有宝贝 html=browser.page_source doc = pq(html) # print(doc) items = doc('#mainsrp-itemlist .items .item').items() for item in items: product = { # 获取 image 时,用'src'总有部分图片获取不到,因为淘宝设有'data-src' 和'src',不同商品这两个属性的前后顺序不一样,直接用'data-src'可避免返回 None 'image':item.find('.pic .img').attr('data-src'),#用find去获取内部元素,选择器是 pic,img,用attr获取属性 # 'image':item.find('.pic-box-inner').find('.pic').find('img').attr['src'], 'price':item.find('.price').text()[1:-3], # 用text获取内容 'shop_id': item.find('.shop').find('a').attr('data-userid'), # 店铺 id 'data_id': item.find('.shop').find('a').attr('data-nid'), # 商品 id 'link': item.find('.pic-box-inner').find('.pic').find('a').attr['href'], 'deal':item.find('.deal-cnt').text()[:-3], 'title':item.find('.title').text(), 'shop':item.find('.shop').text(), 'location':item.find('.location').text().replace(' ','') } # print(product)
阅读全文
0 0
- 【爬虫】selenium解析网页
- 动态网页解析 Selenium
- 动态网页解析 Selenium
- 网页爬虫及解析
- 【爬虫】BeautifulSoup解析网页
- Selenium 网页爬虫开发基础(Java)
- 爬虫-网页解析之webkit
- 【爬虫】正则表达式解析网页
- Python+Selenium进行网页多窗口切换爬虫
- 爬虫、网页分析解析辅助工具 Xpath-helper
- 爬虫、网页分析解析辅助工具 Xpath-helper
- 爬虫、网页分析解析辅助工具 Xpath-helper
- 爬虫初体验,解析网页Table
- 基于BeautifulSoup解析的网页爬虫实现
- 爬虫、网页分析解析辅助工具 Xpath-helper
- java 爬虫 网页解析(Jsoup)
- Python爬虫基础-网页解析器-02
- Python轻量级爬虫教程-网页解析器
- jQuery的简单实用
- 自己封装跨浏览器事件添加和删除函数
- JQuery EasyUI-datagrid用法,行编辑模式
- SpringMvc 拦截器介绍
- JRebel for IDEA
- 【爬虫】selenium解析网页
- DBUtils方法详解02
- php,两个数组合并,用哪个函数?
- 模拟实现strstr(c语言)
- 实训笔记1
- 661. Image Smoother
- Listener监听器
- JS获取页面select元素
- hihocoder 1519 : 逃离迷宫II