urllib 结合bs4通过调用selenium-webdriver来爬取jianshu首页文章,并依次阅读前5篇
来源:互联网 发布:linux kafka 编辑:程序博客网 时间:2024/06/08 04:22
开发环境:Win10+Python 3.6.1 64bit+PyCharmfrom urllib import requestfrom bs4 import BeautifulSoupfrom selenium import webdriverimport randomimport time'''Firefox浏览器'''driver=webdriver.Firefox()url="https://www.jianshu.com"'''构造headers,模拟浏览器登录'''headers={"User_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0)" " Gecko/20100101 Firefox/58.0"}'''request得到html文档'''url_1=request.Request(url,headers=headers)req=request.urlopen(url_1).read().decode("utf-8")#print(req)'''html.parser作为解析器,将内容转化为bs格式'''soup=BeautifulSoup(req,"html.parser")'''查找a标签中所有class=title的语句'''titles=soup.find_all("a","title")#print(titles)'''open读写文件,with会自动close()'''with open("D:\python\爬虫\jianshu.txt","w")as file: for title in titles: file.write(title.string+'\n') file.write("www.jianshu.com"+str(title.get("href")+"\n"))'''调用浏览器,依次打开前5篇文章'''for i in range(0,5): url_2="http://www.jianshu.com"+str(titles[i].get("href")) print(i) driver.get(url_2) '''每篇60s的阅读时间''' time.sleep(60)
阅读全文
0 0
- urllib 结合bs4通过调用selenium-webdriver来爬取jianshu首页文章,并依次阅读前5篇
- Selenium webdriver (5) ---基础篇
- python使用selenium调用edge浏览器webdriver
- selenium webdriver调用google chrome配置chromedriver
- ubuntu 自动化测试(selenium webdriver+chrome)结合Xvfb
- dedecms首页调用随机文章
- Selenium WebDriver
- selenium webdriver
- Selenium WebDriver
- Selenium WebDriver
- selenium webdriver
- Selenium WebDriver
- Selenium Webdriver
- 爬虫Selenium&bs4 + Miku分享
- 【Selenium】PART2 selenium WebDriver
- 【Selenium】PART3 selenium WebDriver
- [Selenium] selenium webdriver 选择器
- 利用Selenium Webdriver 2.0 实现通过Web上传文件
- Long类型的比较
- Linux内核中的jiffies及其作用介绍及jiffies等相关函数详解
- Python中类与dict的转换
- Hadoop的Map-Shuffle-Reduce
- leetcode 101. Symmetric Tree
- urllib 结合bs4通过调用selenium-webdriver来爬取jianshu首页文章,并依次阅读前5篇
- struts2_day01_07_struts2配置(package标签)_08_struts2配置(action标签)_09_struts2配置(result标签)
- 210. Course Schedule II(Topological Sort)
- 怎样选择TCP还是选择UDP
- 数据结构--有序List
- Qt调用COM组件 笔记
- 计算机视觉-理论杂谈
- MySQL的安装
- 关于护宝贝开放视频的建议