perl 爬虫两个技巧
来源:互联网 发布:2017世乒赛丁宁知乎 编辑:程序博客网 时间:2024/05/17 17:17
<pre name="code" class="cpp">jrhmpt01:/root/lwp# cat data.html <div class="m-page J-ajax-page"> <a class="changePage" page="1" href="javascript:void(0);">首页</a> <a class="changePage" page="11" href="javascript:void(0);">上一页</a> <a class="changePage" page="11" href="javascript:void(0);">11</a> <a class="cur" href="javascript:void(0)">12</a> <span class="page_info">12/12</span> </div> <div class="m-page J-ajax-page"> <a class="changePage" page="1" href="javascript:void(0);">首页</a> <a class="changePage" page="11" href="javascript:void(0);">上一页</a> <a class="changePage" page="11" href="javascript:void(0);">11</a> <a class="cur" href="javascript:void(0)">12</a> <span class="page_info">12/12</span> </div> jrhmpt01:/root/lwp# cat c1.pl use LWP::UserAgent;use DBI; use POSIX;use Data::Dumper;use HTML::TreeBuilder;my $ua = LWP::UserAgent->new;$ua->timeout(10);$ua->env_proxy;$ua->agent("Mozilla/8.0"); use HTML::TreeBuilder::XPath; $tree= HTML::TreeBuilder::XPath->new; $tree->parse_file( "data.html");my @title= $tree->findvalues('/html/body//a[@class="changePage"]');print "\@title is @title\n";jrhmpt01:/root/lwp# perl c1.pl@title is 首页 上一页 11 首页 上一页 11my @title= $tree->findvalue('/html/body//a[@class="changePage"]');表示 根据body的内容 查找a标签的@class="changePage"的值jrhmpt01:/root/lwp# cat c1.pl use LWP::UserAgent;use DBI; use POSIX;use Data::Dumper;use HTML::TreeBuilder;my $ua = LWP::UserAgent->new;$ua->timeout(10);$ua->env_proxy;$ua->agent("Mozilla/8.0"); use HTML::TreeBuilder::XPath; $tree= HTML::TreeBuilder::XPath->new; $tree->parse_file( "data.html");my @pages=$tree->find_by_tag_name('a'); #@urlall除了包含每个类别的文章,还包含阅读排行里的文章 foreach (@pages) { @titlepage = $_->attr('page'); foreach (@titlepage) { if ($_){ print "\$_ is $_\n"; }; };};jrhmpt01:/root/lwp# perl c1.pl $_ is 1$_ is 11$_ is 11$_ is 1$_ is 11$_ is 11根据a标签,查看page属性的值
0 0
- perl 爬虫两个技巧
- perl多线程爬虫示例
- perl 爬虫(一)
- [爬虫] Python爬虫技巧
- 爬虫技巧
- Perl技巧 两个数组的取交集,并集与补集
- 基于Mojo的perl爬虫
- python写爬虫技巧(三):urllib2方法geturl、info和两个概念openers、handlers
- perl程序设计技巧
- 【总结】Perl技巧
- Perl 几个技巧
- Perl 单行编辑技巧
- Perl的技巧总结
- perl 运维小技巧
- Perl一些技巧
- perl 小技巧
- perl 同时读入两个文件
- 常用的爬虫技巧
- android sdk manager更新代理配置
- 探索OTN上的TimesTen Hands-on Lab虚拟机
- 古老的邮件编码
- Eclipse编写ExtJS卡死问题 eclise js验证取消
- win7下Python3开发环境设置
- perl 爬虫两个技巧
- python实现K近邻
- DuiLib(1)——简单的win32窗口
- Spring 注解
- 两个div,自适应最高的那个
- CSMA/CD的工作过程_20160319
- NetBeans IDE:[3]java安装路径改变http://jingyan.baidu.com/article/e52e36154149ec40c60c51a9.html
- (OK) cBPM-CentOS——Criteria.xml——create-database
- FZU 2102Solve equation