网页抓取方式(二)--Jsoup
来源:互联网 发布:skype mac 编辑:程序博客网 时间:2024/05/16 11:05
一、Jsoup简介
Jsoup是另一种抓取网页的方式,相比httpclient,它的功能更丰富些,优点如:
1、可以根据抓取的网页生成DOM树,可以将抓取的网页规范化,如补全有开始没结束的标签;
2、可以根据css选择器查找、取出数据;
3、提供类似jquery方式提取数据;
4、抓取速度也很快;
缺点:不支持javascript
二、实例
1、添加maven依赖
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.2</version></dependency>2、代码实例
public class JsoupCrawlerMain { public static void main(String[] args) throws Exception { jsoupCrawler(); } static void jsoupCrawler() throws Exception { String url = "http://www.ifeng.com/"; Document doc = Jsoup.connect(url) .timeout(5000) .get(); Elements eles = doc.select("#headLineDefault > h1 > a"); if(Objects.nonNull(eles)){ String result = eles.text().trim(); System.out.println("ifeng headline is : " + result); } }}运行结果:
ifeng headline is : 习近平出席上合成员国元首理事会会议
阅读全文
0 0
- 网页抓取方式(二)--Jsoup
- JSOUP抓取网页内容
- Jsoup网页抓取技术
- 网页抓取jsoup
- 网页抓取jsoup
- jsoup 抓取网页数据
- 安卓新闻客户端(二) JSOUP解析HTML 抓取网页内容
- Jsoup 抓取网页信息(1) 抓取 国际疾病码
- Jsoup网页内容抓取分析
- 浅谈jsoup网页抓取技术
- jsoup抓取网页+详细讲解
- jsoup抓取网页+详细讲解
- jsoup抓取网页+详细讲解
- Jsoup网页内容抓取分析
- JSOUP抓取网页,模拟登录
- jsoup网页内容抓取分析
- jsoup抓取网页+详细讲解
- jsoup抓取网页+详细讲解
- 淘淘商城系列——接收Queue消息
- JBPM(三)--- JPDL 流程定义语言
- Maven 项目生成或者update jdk变为1.5的问题
- Lintcode69 Binary Tree Level Order Traversal solution 题解
- 你见或者不见,我就在那里。不离不弃!--(shadow DOM)(前端冷知识)
- 网页抓取方式(二)--Jsoup
- centos vi 不显示颜色处理
- Lintcode70 Binary Tree Level Order Traversal II solution 题解
- 如何勾搭程序员?这有 11 个正确的姿势
- USACO-Section1.3 barn1[贪心]
- Binary String Matching
- containsKey
- NLTK学习笔记(三):NLTK的一些工具
- 平衡树——2-3树(Binary Search Tree