Python抓取离线网页信息_学习笔记_1
来源:互联网 发布:交换机流量监控软件 编辑:程序博客网 时间:2024/05/22 05:22
一般网页的HTML代码是分层次结构的,首先要懂得最简单的HTML结构。
这是抓取离线网页部分数据的代码
from bs4 import BeautifulSoup #导入库path = './web/new_index.html' #本地网页路径with open(path,'r') as wb_data: #文件描述符 Soup=BeautifulSoup(wb_data,'lxml') #解析网页 #得到相关内容的源代码 pics=Soup.select('body > div.main-content > ul > li > img') titles=Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a') rates=Soup.select('body > div.main-content > ul > li > div.rate > span') abstracts=Soup.select('body > div.main-content > ul > li > div.article-info > p.description') cates=Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info') print(cates)#对源码处理,提取文本信息存在字典中for pic,title,rate,abstract,cate in zip(pics,titles,rates,abstracts,cates): data={ 'pic':pic.get('src'), #图片路径 'title':title.get_text(), #提取文本 'rate':rate.get_text(), 'abstract':abstract.get_text(), 'cate':list(cate.stripped_strings), }for i in data: if float(i['rate'])>3: #过滤出评分在3以上的文章标题 print(i['title'])
阅读全文
0 0
- Python抓取离线网页信息_学习笔记_1
- [Python]网页信息抓取
- Python学习笔记-简易抓取网页-1
- 学习笔记-python抓取网页数据
- Python学习笔记-简易抓取网页-2
- python学习笔记_1
- 使用Python抓取网页信息
- 使用Python抓取网页信息
- python 抓取网页网址信息
- python多线程抓取网页信息
- Python 抓取网页特定信息
- python--parser抓取网页信息
- Python爬虫学习,抓取网页上的天气信息
- Jsoup抓取网页信息学习
- 学习curl抓取网页信息
- python基础教程_学习笔记8:序列_练习与总结_1
- Python爬虫学习笔记一:简单网页图片抓取
- Scrap学习笔记 --- python实现抓取整个网页
- protobuf学习入门:一
- SQL学习(2)——MySQL数据库常用的函数--聚合函数
- std::lock_guard 引起的思考
- direct show
- sass用法
- Python抓取离线网页信息_学习笔记_1
- 使用ToStringBuilder输出对象所有属性以及对应的值-java笔记
- break和continue的区别
- 548.两数组的交II
- postgresql将表中的字段由varchar类型改为int类型
- Android开发之如何保证Service不被杀掉(broadcast+system/app)
- 移动端应该如何动态设置字体大小?
- PhpStorm2017激活和汉化
- Linux 内核中的并发--中断屏蔽