学习Jsoup(一)
来源:互联网 发布:双色球怎么算法 编辑:程序博客网 时间:2024/05/02 05:03
听同学说Jsoup用来做爬虫非常好用,而且它的selector几乎能够代替正则,对于苦苦学习爬虫技术的我,简直就像天上掉下的馅饼。
我现在想解决的第一个问题是,提取文章所在的地址。需要用到的技术有:
一、用正则抽取符合条件的html语句;
二、在语句中筛选出地址;
三、在语句中筛选出文章的标题。
解决办法:
一、使用Jsoup的selector
http://jsoup.org/apidocs/中的selector
其中这句能够解决问题
语句 解释 例子
[attr~=regex]
elements with an attribute named "attr", and value matching the regular expressionimg[src~=(?i)\\.(png|jpe?g)]
The above may be combined in any orderdiv.header[title]
我的例子:select("a[title~=讲话]")意思是a标签后面包括了“讲话”的title。
二、在语句中筛选出地址
我用的是attr("href"),把href后的链接地址抓出来,用attr(abs : href )就能够得出绝对地址。
参考http://www.open-open.com/jsoup/attributes-text-html.htm
三、在语句中抓文本
用text()方法,参考如上。
今天先写到这里,大家一起讨论吧。
- 学习Jsoup(一)
- 学习Jsoup(二)
- 学习Jsoup(三)
- Jsoup使用教程(一)
- Jsoup解析Html(一)
- Jsoup解析Html库学习 (一)
- Jsoup学习
- jsoup学习
- Jsoup学习
- jsoup学习
- Jsoup学习
- Jsoup学习
- 使用jsoup加载网页数据(一)
- jsoup 选择器(一)常规选择器
- Jsoup学习之Jsoup类
- Jsoup学习之Jsoup类
- Jsoup学习之Jsoup类
- Jsoup学习之Jsoup类
- 查看浏览器内核版本
- 20120405
- 取消win7自动登录
- 基于Android的音乐播放器项目
- sagalinux学习之/boot目录
- 学习Jsoup(一)
- WPF应用程序性能提高
- 计算地球上两点的直线距离
- Windows XP自动登陆
- 运用Maven3.0.3对项目进行管理(1)
- 删除容器的元素时应谨慎
- 按行输入的实现方法
- iframe标签的内部关闭存在一个问题(未知原因)
- 自订标签库--TagSupport详解