perl 处理HTML
来源:互联网 发布:银豆网 知乎 编辑:程序博客网 时间:2024/05/17 06:18
perlhtml
Table of Contents
- 1 perl代码中的web处理
- 1.1 常用模块
- 1.2 基本过程
- 1.3 获取并解析网页
1 perl代码中的web处理
1.1 常用模块
Mojo::UserAgent WWW::Mechanize anyevent::http LWP
1.2 基本过程
扒站最基本的:经过一个网页,把页面上的链接都解析出来放到一个数组里,把页面 上的表单解析出来放到一个散列里,并且hidden字段自动填好,你只需填剩下的字段。 下面,把我用到的最基本的东西总结在下面:
1.3 获取并解析网页
使用LWP::Simple模块的get方法下载网页
然后使用HTML::FormatText创建新的格式器
格式器只能处理已解析的HTML,所以我们使用HTML::TreeBuilder解析HTML
已经解析的HTML位于$treebuilder对象中,所以在这个对象上使formatter 对象的format方法,把网页的格式设置为普通文本,并输出。
1: use LWP::Simple; 2: use HTML::Treebuilder; 3: use HTML::FormatText; 4: 5: $html = get("http://www.cpan.org/"); 6: $formatter = HTML::FormatText->new; 7: $tree_builder =HTML::TreeBuilder->new; 8: $tree_builder->parse($html); 9: $text = $formatter->format($tree_builder);10: print $text;
上面的方法是perl技术内幕中提到的方法。
Date: 2013-05-12 16:44:00 CST
Org version 7.8.11 with Emacs version 24
Validate XHTML 1.0- perl 处理HTML
- 正则表达式处理html实例(Perl实现)
- Perl嵌入HTML
- 用perl分析html
- perl - 设置html编码
- perl HTML::TreeBuilder::XPath
- perl语言文字处理模式
- perl 中的日期处理
- perl处理mysql详解
- Perl 处理excel文件
- perl字符串处理函数
- perl 中文处理 乱码
- Perl进程处理函数
- Perl的时间处理
- perl 文本处理
- perl 时间处理
- Perl如何处理字符串
- perl 字符串处理函数
- 一个低级的问题,设计生产基带芯片的难点在哪呢?高手进!
- 清晰的路由和交换的基本概念简介
- 【差分约束系统】种树 3 WikiOI 1768
- Android开源项目收集
- python tips(4)
- perl 处理HTML
- 如何用emacs与sqlplus建立连接
- 设计模式之解释器模式
- spcaview 文件中的avilib分析和使用
- 用Python写的简单UDP Mock服务
- win7下搭建cocos2d-x androi开发环境不用cygwin的方法
- 设计模式之Builder模式 (C++实现)
- 开源项目
- 逆序对数 题目