一个简单的爬虫代码爬取糗事百科段子(selenium+ChromeDriver)
来源:互联网 发布:windows 98se 安装 编辑:程序博客网 时间:2024/06/14 09:54
一个简单的爬虫入门代码,爬取糗事百科主页的段子(不包括图片,仅文字)。
前期准备:
- 需要安装selenium和ChromeDriver。
- 将chromedriver.exe放在Chrome的安装目录下。
- 配置环境变量。点击我的电脑->属性->高级系统设置->PATH->新建(Chrome的安装位置,比如我的是:C:\Program Files (x86)\Google\Chrome\Application)
一切就绪以后就可以开始最重要的工作——分析需要爬取的目标网页。
首先打开糗事百科主页和开发者工具(F12),然后我们会发现,这个页面的左侧都是笑话,右侧都是广告。
通过开发者工具可以发现左侧笑话区域的id是content-left,content-left 中还有很多用户的头像、姓名等信息,这些是我们不需要的,我们只需要看笑话、段子就好了。继续用之前的方法,我们可以发现,包裹着笑话文字div的class为 content。所以我们实则需要的内容是id为content-left中的class为content的内容。
代码如下:
#/usr/bin/env python#coding:utf-8#导入seleniumfrom selenium import webdriverclass Qiubai: def __init__(self): #打开Chrome浏览器 self.dr = webdriver.Chrome() #访问糗事百科主页 self.dr.get('https://www.qiushibaike.com/') def print_content(self): #获取id为“content-left”的元素 main_content = self.dr.find_element_by_id('content-left') #获取class为“content”的元素 contents = main_content.find_elements_by_class_name('content') #通过for循环输出获取到的内容 i = 1 for content in contents: print(str(i) + "." + content.text +'\n') i += 1 self.quit() def quit(self): #关闭浏览器 self.dr.quit()Qiubai().print_content()
参考资料:陈斌 Python爬虫课
阅读全文
0 0
- 一个简单的爬虫代码爬取糗事百科段子(selenium+ChromeDriver)
- 一个爬取糗事百科段子的简单爬虫
- Python 爬虫 简单实例 爬取糗事百科段子
- 【网络爬虫】爬取糗事百科段子
- python 爬虫 爬取糗事百科段子
- Python爬虫 爬取糗事百科段子
- Python爬虫爬取糗事百科段子
- Python爬虫 爬取糗事百科段子
- python爬虫爬取糗事百科的段子
- Python爬虫实战(1):爬取糗事百科段子
- Python爬虫实战(1):爬取糗事百科段子
- 爬取糗事百科的段子Demo
- 爬取糗事百科段子
- 糗事百科段子爬取
- Python爬虫实战一之爬取糗事百科段子
- pythpn学习の爬虫爬取糗事百科热门段子
- Python爬虫实战一之爬取糗事百科段子
- 网络爬虫——爬取糗事百科笑料段子
- HGDB(pg)行锁现象
- 102. Binary Tree Level Order Traversal
- node 异步编程Promise容器
- java中使用switch-case的用法及注意事项超全总结
- 单例模式的七种写法
- 一个简单的爬虫代码爬取糗事百科段子(selenium+ChromeDriver)
- IDEA 中如何使用 debug
- Windows10下Soot插件在eclipse中的安装
- 开学第一天!!!
- 数组的定义
- 快速幂
- 深度学习网络调参技巧
- 自动人脸识别基本原理 --基于静态图像的识别算法(一)特征脸
- ado增删改查的几种方式