Python抓取离线网页信息_学习笔记_1

来源：互联网发布：交换机流量监控软件编辑：程序博客网时间：2024/05/22 05:22

一般网页的HTML代码是分层次结构的，首先要懂得最简单的HTML结构。

这是抓取离线网页部分数据的代码

from bs4 import BeautifulSoup       #导入库path = './web/new_index.html'         #本地网页路径with open(path,'r') as wb_data:              #文件描述符    Soup=BeautifulSoup(wb_data,'lxml')            #解析网页     #得到相关内容的源代码   pics=Soup.select('body > div.main-content > ul > li > img')    titles=Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')    rates=Soup.select('body > div.main-content > ul > li > div.rate > span')    abstracts=Soup.select('body > div.main-content > ul > li > div.article-info > p.description')    cates=Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info')    print(cates)#对源码处理，提取文本信息存在字典中for pic,title,rate,abstract,cate in zip(pics,titles,rates,abstracts,cates):    data={        'pic':pic.get('src'),      #图片路径        'title':title.get_text(),     #提取文本        'rate':rate.get_text(),        'abstract':abstract.get_text(),        'cate':list(cate.stripped_strings),    }for i in data:    if float(i['rate'])>3:         #过滤出评分在3以上的文章标题        print(i['title'])

阅读全文

0 0