HTML::Parser

来源:互联网 发布:淘宝培训有用吗 编辑:程序博客网 时间:2024/05/01 19:55

解析HTML。本例为找出一个html文本中的所有图片的地址。(即IMG标签中的src)

子程序start中的“$tag =~ /^img$/”为过滤出img标签。

如果换为“$tag =~/^a$/”,即是找出所有的链接地址。

#!/usr/bin/perl use LWP::Simple; use HTML::Parser; my $url = shift || "http://www.chinaunix.net"; my $content = LWP::Simple::get($url) or die("unknown url\n"); my $parser = HTML::Parser->new(          start_h => [&start, "tagname, attr"],          ); $parser->parse($content); exit 0; sub start {    my ($tag, $attr, $dtext, $origtext) = @_;       if($tag =~ /^img$/)    {          if (defined $attr->{'src'} )       {          print "$attr->{'src'}\n";          }    } }


0 0
原创粉丝点击