GuozhongCrawler系列教程 (3) PageProcessor详解

来源:互联网 发布:淘宝基础版导航栏全屏 编辑:程序博客网 时间:2024/06/07 10:50

       PageProcessor是所有PageRequest请求完成后处理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)即可指定处理页面结果 此时重写OschinaProcessor.process方法即可完成解析工作


方法详细资料

  • getJavaScript

    PageScript getJavaScript()

    如果这个页面需要动态交互JS,定义一个PageScript返回

    • 返回:


  • getNormalContain

    java.util.regex.Pattern getNormalContain()

    当启动代理Ip访问时需要重写此方法,返回正常网页应该带有的字符串标识。比如www.baidu.com带有“百度”

    • 返回:


  • process

    void process(OkPage page,           StartContext context,           java.util.List<BasicRequest> queue,           java.util.List<Proccessable> objectContainer)             throws java.lang.Exception

    处理一个页面

    • 参数:

    • page - 下载完成的网页

    • context - 当前所有入口的上下文对象

    • queue - 加入跟进Request的List容器,处理完成后queue的所有Request会被推送到抓取队列中

    • 抛出:

    • java.lang.Exception

  • processErrorPage

    void processErrorPage(Page page,                    StartContext context)                      throws java.lang.Exception

    处理错误页面

    • 参数:

    • page -

    • context -

    • 抛出:

    • java.lang.Exception

0 0