程序博客网 > 家用网络监控

快速网页分析-page_parser

来源：互联网发布：家用网络监控编辑：程序博客网时间：2024/06/08 06:03

缓冲网页,进行结构分析。

有时候经常要去提取网页内容，常常写了一堆代码，后来为了提高效率，

写了代码模板，以后方便测试和使用。

主要涉及如下的库:

import requests
from lxml import etree
import os
from urlparse import urlsplit
import codecs
import chardet

首先实现一个元素的导航打印:

然后实现一个 utf-8网页保存

在实现一个通用解析模块:

测试百度网页提取:

很快就实现了基于索引的元素获取。

只要网页结构不变化的话，可以快速基于 elems[0] , elems[1] 获取元素。

不过，基于内容获取数据更可靠。

比如解析这个网站:

测试代码如下:

得到的结果如下:

测试这个网站:

测试代码:

得到的结果如下:

这种模板代码，简化了我日常的网页数据处理。

0 0

家用网络监控

家用网络监控

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子手麻怎么办小便有泡沫怎么办大腿有橘皮纹怎么办肾结石发作疼怎么办双肾结石怎么办肾不太好怎么办肾功能损伤怎么办肝脏功能不好怎么办肾脏不好怎么办腰椎发炎怎么办肝不舒服怎么办腰背部疼痛怎么办肩胛骨酸痛怎么办大便出血怎么办大便便血该怎么办大便拉血怎么办肛门出血该怎么办痔疮出血怎么办大便干燥出血怎么办痔疮流血不止怎么办母乳性腹泻怎么办经常性拉肚子怎么办宝宝大便出血怎么办孩子大便干燥怎么办大便带血怎么办孩子大便出血怎么办月经流血不止怎么办鼻子流血不止怎么办癌胚抗原偏高怎么办血糖值偏高怎么办值班血糖高怎么办血糖太高怎么办血糖正常值偏高怎么办体检血糖偏高怎么办空腹血糖偏高怎么办低血糖头晕怎么办空腹血糖10.1怎么办空腹血糖高怎么办血糖高怎么办尿检红细胞高怎么办尿红细胞偏高怎么办