Python抓取离线网页信息_学习笔记_1

来源:互联网 发布:交换机流量监控软件 编辑:程序博客网 时间:2024/05/22 05:22

一般网页的HTML代码是分层次结构的,首先要懂得最简单的HTML结构。

这是抓取离线网页部分数据的代码


from bs4 import BeautifulSoup       #导入库path = './web/new_index.html'         #本地网页路径with open(path,'r') as wb_data:              #文件描述符    Soup=BeautifulSoup(wb_data,'lxml')            #解析网页     #得到相关内容的源代码   pics=Soup.select('body > div.main-content > ul > li > img')    titles=Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')    rates=Soup.select('body > div.main-content > ul > li > div.rate > span')    abstracts=Soup.select('body > div.main-content > ul > li > div.article-info > p.description')    cates=Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info')    print(cates)#对源码处理,提取文本信息存在字典中for pic,title,rate,abstract,cate in zip(pics,titles,rates,abstracts,cates):    data={        'pic':pic.get('src'),      #图片路径        'title':title.get_text(),     #提取文本        'rate':rate.get_text(),        'abstract':abstract.get_text(),        'cate':list(cate.stripped_strings),    }for i in data:    if float(i['rate'])>3:         #过滤出评分在3以上的文章标题        print(i['title'])


原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 孩子做作业老是粗心大意怎么办 高中孩子没学习兴趣怎么办 初三孩子失去学习兴趣怎么办 初二对学习兴趣不大怎么办 脸上痒发红发肿怎么办 孩子作业拖拉爱丢三落四怎么办 腿肌肉按摩肿了怎么办 孩子上一年级成绩差怎么办 小孩脖子拧筋了怎么办 小孩塑料玩具拧不出来怎么办 一年级孩子做数学题粗心怎么办 手和脚有点肿怎么办 手破了之后肿了怎么办 手指肿了有脓怎么办 宝宝手指红肿有脓怎么办 孩子一听做作业就烦气怎么办 虎皮鹦鹉脚瘸了怎么办 虎皮鹦鹉脚受伤了怎么办 虎皮鹦鹉脚流血了怎么办 虎皮鹦鹉被风扇打到脚怎么办 虎皮鹦鹉脚脱臼了怎么办 孩子作业做得慢怎么办 员工给公司造成损失怎么办 小孩有写不完的作业家长怎么办 一年级孩子作业太粗心怎么办 孩子最近不好好做作业怎么办 工作压力大害怕做不好怎么办 孩子的数算不对怎么办? 孩子计算老是出错怎么办呢 孩子经常计算错误能怎么办 孩子老出现计算错误怎么办 孩子做作业马虎该怎么办 黑笔写错了纸破了怎么办 幼儿园报名写错怎么办名字 中考写错了字怎么办 头发没干想睡觉怎么办 突然天旋地转恶心想吐怎么办 突然天旋地转的浑身出汗怎么办 3岁半不认识数字怎么办 孩子长倒睫毛该怎么办 一年级的孩子口算慢怎么办?