jsoup教程011-jsoup+Hibernate抓取某站9万条文章

来源:互联网 发布:购买高权重网站域名 编辑:程序博客网 时间:2024/05/21 19:31
jsoup+Hibernate抓取某站9万条文章

平时小落很喜欢看一些励志文章,觉得有助于自己亢奋,然后去给自己个理由去学习去工作。。

今天寻找亢奋的时候忽然看到一个很不错的网站,里面文章很多很全,很不错大家也可以去看看。

觉得很有帮助,于是乎。。。就想保存几篇,但是一篇篇的copy感觉太费劲啦。于是想到了jsoup哈哈。。

于是着手分析起来。

首先看了下文章详情页

大致可以知道文章是在一个class="PostContent"的div容器里放的,利用jsoup解析没什么大问题,只是要去除一些非文章的标签。于是小试了一下



效果很不错,文章解析出来了,但是新的问题又来了。。。

怎么样才能得到网站所有文章呢??

文章的链接是个重要的因素。。于是我进入了一个误区。那就是遍历urls,,,我靠,鼓捣了一会儿,这也太慢了吧。。

原来是文章的序号并不是递增的走的,只好思考新的办法。想了想没有思路,然后在不知不觉点到了类别分页里,我靠这不是解决问题的办法么。。

只要得到分页类别里的文章url不就ok了,,于是又开工。。






效果很不错得到文章的url了,到这里就差不多了,只要在使用这些链接得到内容,然后就持久化就ok了,哈哈,perfect,想想就激动。。。。

继续开工。。。。终于两个小时候。。。

得到了这么个东东




没想到会产生这么大一个sql,第一次见。。。。。

想想太占内存了,还是删了吧,看的时候也麻烦,还得自己查找出来,想看文章还是在上站长的网站上看吧。。。




原创粉丝点击