网页抓取方式(一)--HttpClient
来源:互联网 发布:广联达破解软件下载 编辑:程序博客网 时间:2024/05/29 15:29
一、HttpClient简介
通过HttpClient,我们可以进行网页抓取,优点是:这种方式高效快速。
缺点是:当然另一方面对js是不支持的,缺乏文档解析方法。通常可以作为普通的抓取方式。
二、实例
1、添加maven依赖
<dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.3</version></dependency>
二、代码实例
public class HttpClientCrawlerMain { public static void main(String[] args) throws Exception { httpClientCrawler(); } static void httpClientCrawler() throws Exception { String url = "http://www.ifeng.com/"; CloseableHttpClient httpclient = HttpClients.createDefault(); HttpGet httpGet = new HttpGet(url); CloseableHttpResponse response = httpclient.execute(httpGet); HttpEntity entity = response.getEntity(); if (!Objects.isNull(entity)) { String content = EntityUtils.toString(entity, "UTF-8"); //正则方式提取头条信息 Pattern headlinePat = Pattern.compile("<div id=\"headLineDefault\">[\\s\\S]*<h1><a href=\"http://news.ifeng.com/mainland.*?target=\"_blank\">(.*?)</a>"); Matcher m = headlinePat.matcher(content); if (m.find()) { String result = m.group(1); System.out.println("ifeng headline is : " + result); } } }}
运行结果:
ifeng headline is : 习近平出席上合成员国元首理事会会议
阅读全文
0 0
- 网页抓取方式(一)--HttpClient
- httpclient 网页抓取 几个问题
- HTTPCLIENT抓取网页内容
- HttpClient抓取网页
- HttpClient 抓取网页
- httpclient学习抓取网页
- java学习-GET方式抓取网页(UrlConnection和HttpClient) 参考
- 利用httpclient抓取网页内容
- HttpClient抓取网页文件方法
- 利用httpclient抓取网页内容
- HttpClient + Jsoup 网页数据抓取
- httpclient抓取https网页数据
- HttpClient+Jsoup 抓取网页信息
- HttpClient+Jsoup 抓取网页信息(网易贵金属为例)
- Linux 抓取网页方式(curl+wget)
- Linux 抓取网页方式(curl+wget)
- Linux 抓取网页方式(curl+wget)
- Linux 抓取网页方式(curl+wget) .
- Bootstrap基础
- 高效率php写法
- leetCode刷题归纳-Dynamic Programming(514. Freedom Trail)
- python使用requests爬取网页,遇到中文出现乱码的编码问题及解决
- hdoj1076 An Easy Task(简单题)
- 网页抓取方式(一)--HttpClient
- border
- hover 鼠标悬浮改变样式
- 【剑指offer】第六题-重建二叉树
- 高级面向对象 之 js是基于原型的程序
- 《从零开始搭建游戏服务器》 序列化工具(最优版Protostuff)
- Oracle环境变量配置
- Python测试代码2之--unittest类的测试
- 进销存项目总结