利用HttpClient和Jsoup实现从网站中抓取数据
来源:互联网 发布:淘宝店铺手机端链接 编辑:程序博客网 时间:2024/05/17 15:21
HttpClient的下载地址:http://hc.apache.org/downloads.cgi
Jsoup的下载地址:http://jsoup.org/download
在Eclipse中导入所下载的包即可。
首先利用HttpClient获取目标网站的的html文件,然后通过jsoup来解析。
代码如下:
import java.io.IOException;import org.apache.http.HttpEntity;import org.apache.http.HttpResponse;import org.apache.http.client.HttpClient;import org.apache.http.client.methods.HttpGet;import org.apache.http.impl.client.DefaultHttpClient;import org.apache.http.util.EntityUtils;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;public class Select_Element_Demo {public static void main(String[] args) throws IOException {HttpClient httpclient = new DefaultHttpClient();try{HttpGet httpget = new HttpGet("http://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/");//把目标网站设置进去System.out.println("executing request " + httpget.getURI());HttpResponse response = httpclient.execute(httpget);//获得responseHttpEntity entity = response.getEntity();//获得网站的内容System.out.println("getStatusLine"+response.getStatusLine());if (entity != null){System.out.println("Response content length: " + entity.getContentLength());String html = EntityUtils.toString(entity);//将网站的内容转成字符串Document doc = Jsoup.parse(html);//把html封装进DocumentElement element= doc.getElementById("ibm-content");//提取目标板块的信息System.out.println("body:"+element.text());}}catch(Exception e){e.printStackTrace();}finally{ //关闭连接,释放资源 httpclient.getConnectionManager().shutdown();}}}从上面可以看到,利用HttpClient和Jsoup来从网站爬取信息很容易。
0 0
- 利用HttpClient和Jsoup实现从网站中抓取数据
- HttpClient+jsoup实现网页数据抓取和处理
- httpclient+jsoup抓取数据
- 使用HttpClient和Jsoup定向抓取数据
- 使用jsoup从网站抓取数据
- HttpClient + Jsoup 网页数据抓取
- 使用HttpClient和Jsoup进行简单数据抓取、解析
- 利用Jsoup抓取网络数据
- 利用jsoup和httpclient来进行网站的爬取
- JAVA抓取网站数据-----JSOUP
- httpClient及jsoup抓取解析网页数据
- Android利用jsoup抓取网页数据
- 使用httpclient及jsoup从oj上抓取题目信息
- 利用jsoup实现网页内容的抓取
- 借助jsoup实现从网站页面中获取指定内容
- jsoup 实现在自己的网站中 抓取到 其他网站对自己感兴趣的信息
- Jsoup实现网络数据抓取1
- Jsoup实现网络数据抓取2
- 一步步学习SPD2010--第三章节--处理列表和库(4)----处理列表栏目
- Java关于遍历出指定文件夹里的文件列表
- eclipse快捷键失效
- 图片间断滚动---jQuery插件bxCarousel
- Android - 多线程 - AsyncTask
- 利用HttpClient和Jsoup实现从网站中抓取数据
- ubuntu shell脚本line 1: #!/bin/bash: No such file or directory
- UIButton按钮控件
- Meet and Greet
- Native registration unable to find class 'com/android/server/Watchdog'问题
- Android开发——Intent中的各种FLAG
- Android ExpandableListActivity实现可展开的activity
- [转载]C语言动态内存分配malloc/realloc/calloc
- flowplayer 播放视频, 自动调整上下左右黑边大小