GuozhongCrawler系列教程 (3) PageProcessor详解
来源:互联网 发布:淘宝基础版导航栏全屏 编辑:程序博客网 时间:2024/06/07 10:50
PageProcessor是所有PageRequest请求完成后处理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)即可指定处理页面结果 此时重写OschinaProcessor.process方法即可完成解析工作
方法详细资料
getJavaScript
PageScript getJavaScript()
如果这个页面需要动态交互JS,定义一个PageScript返回
返回:
getNormalContain
java.util.regex.Pattern getNormalContain()
当启动代理Ip访问时需要重写此方法,返回正常网页应该带有的字符串标识。比如www.baidu.com带有“百度”
返回:
process
void process(OkPage page, StartContext context, java.util.List<BasicRequest> queue, java.util.List<Proccessable> objectContainer) throws java.lang.Exception
处理一个页面
参数:
page
- 下载完成的网页context
- 当前所有入口的上下文对象queue
- 加入跟进Request的List容器,处理完成后queue的所有Request会被推送到抓取队列中抛出:
java.lang.Exception
processErrorPage
void processErrorPage(Page page, StartContext context) throws java.lang.Exception
处理错误页面
参数:
page
-context
-抛出:
java.lang.Exception
0 0
- GuozhongCrawler系列教程 (3) PageProcessor详解
- GuozhongCrawler系列教程 (2) CrawTaskBuilder详解
- GuozhongCrawler系列教程 (4) StartContext详解
- GuozhongCrawler系列教程 (5) TransactionRequest详解
- GuozhongCrawler系列教程 (1) 三大PageDownloader
- CSS3 经典教程系列:CSS3 圆角(border-radius)详解
- CSS3 经典教程系列:CSS3 圆角(border-radius)详解
- 学习SpringMVC系列教程(二)DispatcherServlet详解
- CSS3 经典教程系列:CSS3 圆角(border-radius)详解
- 学习SpringMVC系列教程(二)DispatcherServlet详解
- 学习SpringMVC系列教程(二)DispatcherServlet详解
- 学习SpringMVC系列教程(三)Controller接口控制器详解
- CSS3 经典教程系列:CSS3 圆角(border-radius)详解
- Android系列教程 adb操作命令详解
- Android系列教程adb操作命令详解
- 尚学堂hadoop详解系列教程
- Java 数据库系列教程--C3P0详解
- redis配置详解-redis系列教程
- Android ScrollView简单自动滚动问题总结
- CIBN总结
- error while loading shared libraries: xxx.so.x"错误的原因和解决办法
- iframe父页面随子页面高度的增加而增加
- Tessellation
- GuozhongCrawler系列教程 (3) PageProcessor详解
- hdu 2123 An easy problem
- Linux系统的在线求助man page 与info page
- 修改opencv源码的方法
- 【Cocos游戏实战】功夫小子第三课之过渡场景和开始菜单的实现
- zoj2165(dfs)
- HttpClient教程
- Android中Adapter的notifyDataSetInvalidated()和notifyDataSetChanged()的区别!
- 正则表达式matcher.group用法