快速网页分析-page_parser

来源:互联网 发布:家用网络监控 编辑:程序博客网 时间:2024/06/08 06:03

缓冲网页,进行结构分析。

有时候经常要去提取网页内容,常常写了一堆代码,后来为了提高效率,

写了代码模板,以后方便测试和使用。

主要涉及如下的库:

  1. import requests
  2. from lxml import etree
  3. import os
  4. from urlparse import urlsplit
  5. import codecs
  6. import chardet

首先实现一个 元素的导航打印:



然后实现一个 utf-8网页保存


在实现一个 通用解析模块:



测试百度网页提取:






很快就实现了 基于 索引  的元素获取。

只要网页结构不变化的话,可以快速基于  elems[0] , elems[1] 获取元素。

不过,基于内容获取数据更可靠。




比如解析这个网站:




测试代码如下:



得到的结果如下:




测试这个网站:



测试代码:



得到的结果如下:



这种模板代码,简化了我日常的网页数据处理。

0 0
原创粉丝点击