GuozhongCrawler系列教程（3） PageProcessor详解

来源：互联网发布：淘宝基础版导航栏全屏编辑：程序博客网时间：2024/06/07 10:50

PageProcessor是所有PageRequest请求完成后处理的接口。例如：startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)即可指定处理页面结果此时重写OschinaProcessor.process方法即可完成解析工作

方法详细资料

getJavaScript
```
PageScript getJavaScript()
```
如果这个页面需要动态交互JS，定义一个PageScript返回
- 返回:

getNormalContain
```
java.util.regex.Pattern getNormalContain()
```
当启动代理Ip访问时需要重写此方法，返回正常网页应该带有的字符串标识。比如www.baidu.com带有“百度”
- 返回:

process

void process(OkPage page,           StartContext context,           java.util.List<BasicRequest> queue,           java.util.List<Proccessable> objectContainer)             throws java.lang.Exception

处理一个页面

参数:
page - 下载完成的网页
context - 当前所有入口的上下文对象
queue - 加入跟进Request的List容器，处理完成后queue的所有Request会被推送到抓取队列中
抛出:
java.lang.Exception

processErrorPage

void processErrorPage(Page page,                    StartContext context)                      throws java.lang.Exception

处理错误页面

参数:
page -
context -
抛出:
java.lang.Exception

0 0

GuozhongCrawler系列教程 （3） PageProcessor详解

方法详细资料

getJavaScript

getNormalContain

process

processErrorPage

GuozhongCrawler系列教程（3） PageProcessor详解