【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。

来源:互联网 发布:物联网网络视频服务器 编辑:程序博客网 时间:2024/06/06 13:06

原文:【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。

源代码下载地址:http://www.zuidaima.com/share/1581523414404096.htm

【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。

如果要使用注解方式实现,也是支持的。

@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")public class OschinaBlog {    @ExtractBy("//title")    private String title;    @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css)    private String content;    @ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true)    private List<String> tags;    public static void main(String[] args) {        OOSpider.create(            Site.me().addStartUrl("http://my.oschina.net/flashsword/blog"),            new ConsolePageModelPipeline(), OschinaBlog.class).run();    }}

0 0
原创粉丝点击