webmagic学习笔记
来源:互联网 发布:淘宝爆款怎样打造爆款 编辑:程序博客网 时间:2024/04/29 06:24
今天来看看页面出来的过程
在class Spider中有run函数,调用了 processRequest(requestFinal)完成对页面的下载和处理。在这个函数里面先调用downloader.download(request, this);完成页面的下载, pageProcessor.process(page);完成对页面的处理过程,随后可以进行抽取结果的持久的过程。爬虫下载页面以及后续处理的大致过程,我现在要分析的主要是页面的处理过程!
pageProcessor.process()这个函数需要用户自己来定义,这里主要涉及HTML这个类,这个类完成了对页面的处理。HTML继承自htmlnode,htmlnode则继承自abstractselectable,abstractselectable则是实现了selectable接口。
selectable中有若干函数,用于实现对结果的抽取。主要还是要看HTML这个类,虽然这个类有多个构造函数,但是下载页面后将下载的内容转换为HTML的时候调用的是 Html(String text) ,然后调用 this.document = Jsoup.parse(text);用jsoup来解析这个string类型的HTML。在这个类中实现了对页面的解析,当然类中调用了之前已经定义的多个选择器!思绪有点乱,暂时这样!
0 0
- webmagic 学习笔记
- webmagic学习笔记
- webMagic学习笔记
- 爬虫学习笔记-WebMagic初识
- webmagic学习笔记(4)---webmagic总体架构分析
- webmagic学习
- webmagic学习笔记(2)---m2e插件的安装
- 读webmagic笔记
- WebMagic 爬虫框架学习
- 大白痴学习webmagic
- WebMagic爬虫框架学习
- webmagic学习开篇
- webmagic 0.70学习
- webmagic
- WebMagic
- webmagic
- webmagic 学习(1)-- 基础流程
- webmagic学习笔记(3)---eclipse下导入源码及第一个小爬虫简单分析
- 架构之美第十章-创建软件架构
- 架构之美第十一章-架构结构
- QT中动态链接库的建立,以及在QT中的引用,C++程序中的引用
- Undefined symbols for architecture xxx
- 架构之美第十二章-好的架构
- webmagic学习笔记
- http://blog.sina.com.cn/s/blog_62714d6a0100mjgs.html
- 架构之美第十三章-美丽的架构
- 第273天(28W+3)
- CryENGINE3初探Flowgraph(FG)(一)----静静的做个译者
- NYOJ 168 、198、199
- 《疯狂Java讲义》读书笔记(一)
- 如何生成汉字验证码或字母数字混合验证码
- 架构师必看-架构之美第14章-两个系统的故事:现代软件神话(一)