程序博客网 > 记忆宫殿知乎

爬虫中的groovy脚本

来源：互联网发布：记忆宫殿知乎编辑：程序博客网时间：2024/05/18 00:03

1.使用select()方法在页面上选择我们需要的信息

def document = page.getHtml().getDocument();//这里的page是webmagic中的一个Page对象

在

<div id="aa">

<span class="bb">

爬虫中的groovy脚本

</span>

</div>

如果想要获取这个标签的正文内容，有以下方法：

document.select("div#aa").text()
document.select("div#aa>span") .text()
document.select("span.bb").text()

如果想要获取这个完整的标签（包括标签和文本）：

document.select("div#aa").toString()

2.使用正则表达式来匹配文本并截取所需要的信息

在groovy主要使用"=~/regex/"来匹配，比如说msg=“开始-需求信息-结尾”，想要截取“需求信息”，则使用：def aa = (msg=~/开始(.+)?结尾/)[0][1] //这里可以将匹配后的结果视为一个二维数据
匹配日期时间类型：比如msg = "2015-7-9 13:30" 使用(msg=~/\d{4}-\d{1,2}-d{1,2} \d{1,2}:d{1,2} /)[0]就可以匹配到"2015-7-9 13:30",当然如果要把它转换成dateTime类型的话，还要用到SimpleDateFormat类的parse()和format()方法来转换

3.使用xpath来获取所需要的信息

有时候，我们发现一些标签只有style属性，没有id,class属性，这就不能使用select()函数了，因为select()中的参数都是css样式选择器,这个时候，我们发现xpath就很好用了

比如说

<table sytle="width:100px">

<tbody>

<tr><td>

使用xpath来获取所需要的信息

</td></tr>

</tbody>

</table>
我们可以使用page.getHtml().xpath("//talbe[@sytle=width:100px]").all()来获取这个table标签

*因为刚开始用xpath，不是很熟练，没有什么好的建议（可以看看W3CSchool的帮助文档有介绍）

4.使用其他的一些方法来去掉多余的信息

replacAll(String regex,String str)

0 0

记忆宫殿知乎

记忆宫殿知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子喝酒后胃疼怎么办喝酒导致胃疼怎么办喝了酒胃痛怎么办喝了酒胃疼怎么办缓解喝完白酒胃难受怎么办胃疼引起拉肚子怎么办胃酸恶心想吐怎么办早上反胃想吐怎么办喝奶茶头晕恶心怎么办喝中药呕吐反胃怎么办喝中药想吐怎么办一直恶心想吐怎么办宿醉一直想吐怎么办拉肚子胃疼恶心怎么办夜里胃酸吐酸水怎么办胃酸胃胀不消化怎么办早上起来胃疼怎么办吃苹果胃疼怎么办半夜胃痛想吐怎么办半夜胃疼呕吐怎么办急性肠胃炎想吐怎么办肠胃炎吃药吐了怎么办怀孕8个多月胃痛怎么办怀孕四个月胃痛怎么办孕妇胃疼肚子疼怎么办怀孕七个月胃痛怎么办孕妇怀孕胃疼怎么办半夜胃疼恶心怎么办头晕反胃想吐怎么办感冒反胃想吐怎么办最近头疼眼睛疼怎么办怀孕头痛的厉害怎么办怀孕了感冒头痛怎么办怀孕后期偏头疼怎么办怀孕28天头疼怎么办怀孕七个月头疼怎么办怀孕后经常头疼怎么办怀孕感冒脑袋疼怎么办孕妇头疼的厉害怎么办怀孕六个月头痛怎么办小腹肛门坠痛怎么办