使用HttpClient+Jericho HTML Parser 实现网页抓取
来源:互联网 发布:解忧杂货店读后感 知乎 编辑:程序博客网 时间:2024/05/22 19:27
Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库,可以分析和处理HTML文档的一部分,包括一些通用的服务器端标签,同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。
下载地址:http://sourceforge.net/project/showfiles.php?group_id=101067
HttpClient作为HTTP客户端组件与服务器进行通讯,同时使用了jdom进行XML数据的解析。
* HttpClient 可以在http://jakarta.apache.org/commons/httpclient/downloads.html下载
* HttpClient 用到了 Apache Jakarta common 下的子项目 logging,你可以从这个地址http://jakarta.apache.org/site/downloads /downloads_commons-logging.cgi下载到 common logging,从下载后的压缩包中取出 commons-logging.jar 加到 CLASSPATH 中
* HttpClient 用到了 Apache Jakarta common 下的子项目 codec,你可以从这个地址http://jakarta.apache.org/site/downloads /downloads_commons-codec.cgi 下载到最新的 common codec,从下载后的压缩包中取出 commons-codec-1.x.jar 加到 CLASSPATH 中
在对网页信息进行抓取时,主要会用到GET 方法
使用 HttpClient 需要以下 6 个步骤:
1. 创建 HttpClient 的实例
2. 创建某种连接方法的实例,在这里是 GetMethod。在 GetMethod 的构造函数中传入待连接的地址
3. 调用第一步中创建好的实例的 execute 方法来执行第二步中创建好的 method 实例
4. 读 response
5. 释放连接。无论执行方法是否成功,都必须释放连接
6. 对得到后的内容进行处理
在eclipse下建立工程 -->snatch
将上面下载的四个jar文件导入到项目路径中.
环境搭建完成
现在,首先介绍一下HttpClient的使用
在工程目录下创建test包,在包中创建Httpclient Test类
下面结合两者给个事例
取出http://www.ahcourt.gov.cn/gb/ahgy_2004/fyxw/index.html
中"信息快递"栏的前几条信息.
新建类CourtNews
- 使用HttpClient+Jericho HTML Parser 实现网页抓取
- 网页爬虫,HttpClient+Jericho HTML Parser 实现网页的抓取
- HttpClient+Jericho HTML Parser 实现网页的抓取
- HttpClient+Jericho HTML Parser 实现网页的抓取
- HttpClient+Jericho HTML Parser 实现网页的抓取
- Jericho Html Parser初探
- 开源的网页抓取项目HTML Parser 介绍
- HTML Parser Jsoup - 网页抓取百度百科信息的例子
- jsoup 分页抓取网页数据Java HTML Parser
- 使用HttpClient远程抓取网页内容
- 使用HttpClient远程抓取网页内容
- 使用HttpClient远程抓取网页内容
- python--parser抓取网页信息
- httpclient 网页抓取 几个问题
- HTTPCLIENT抓取网页内容
- HttpClient抓取网页
- HttpClient 抓取网页
- httpclient学习抓取网页
- 基于UML 4+1视图和概念模型的建模方法
- Sicily 1827 && 1947 Sniper
- 个人学习笔记8之--关于OVER子句 多属性的比较 PIVOT 聚合问题
- 经典语录
- 利用Web Service进行远程上传图片
- 使用HttpClient+Jericho HTML Parser 实现网页抓取
- 一个通用Makefile的编写
- Ubuntu 10.04 编译安装最新版本Linux-2.6.34内核
- hibernate数据类型与OR映射
- java3D里transformGroup与transform3D
- 系统设计总结
- FSDK_DetectFacialFeatures
- 转:各种有名的C++库介绍
- 个人学习笔记7之--联接与集合操作