jsoup教程011-jsoup+Hibernate抓取某站9万条文章
来源:互联网 发布:购买高权重网站域名 编辑:程序博客网 时间:2024/05/21 19:31
jsoup+Hibernate抓取某站9万条文章
平时小落很喜欢看一些励志文章,觉得有助于自己亢奋,然后去给自己个理由去学习去工作。。
今天寻找亢奋的时候忽然看到一个很不错的网站,里面文章很多很全,很不错大家也可以去看看。
觉得很有帮助,于是乎。。。就想保存几篇,但是一篇篇的copy感觉太费劲啦。于是想到了jsoup哈哈。。
于是着手分析起来。
首先看了下文章详情页
大致可以知道文章是在一个class="PostContent"的div容器里放的,利用jsoup解析没什么大问题,只是要去除一些非文章的标签。于是小试了一下
效果很不错,文章解析出来了,但是新的问题又来了。。。
怎么样才能得到网站所有文章呢??
文章的链接是个重要的因素。。于是我进入了一个误区。那就是遍历urls,,,我靠,鼓捣了一会儿,这也太慢了吧。。
原来是文章的序号并不是递增的走的,只好思考新的办法。想了想没有思路,然后在不知不觉点到了类别分页里,我靠这不是解决问题的办法么。。
只要得到分页类别里的文章url不就ok了,,于是又开工。。
效果很不错得到文章的url了,到这里就差不多了,只要在使用这些链接得到内容,然后就持久化就ok了,哈哈,perfect,想想就激动。。。。
继续开工。。。。终于两个小时候。。。
得到了这么个东东
没想到会产生这么大一个sql,第一次见。。。。。
想想太占内存了,还是删了吧,看的时候也麻烦,还得自己查找出来,想看文章还是在上站长的网站上看吧。。。
阅读全文
0 0
- jsoup教程011-jsoup+Hibernate抓取某站9万条文章
- 【Jsoup】抓取文章并定制
- httpclient3+jsoup多线程抓取虎嗅网全部文章
- Jsoup 教程
- Jsoup抓取页面内容
- JSOUP抓取网页内容
- Jsoup网页抓取技术
- jsoup抓取豆瓣美女
- Jsoup数据抓取
- 网页抓取jsoup
- 使用Jsoup抓取数据
- jsoup数据抓取学习
- Jsoup抓取页面
- Jsoup抓取数据
- Jsoup抓取数据
- Jsoup抓取唐诗三百首
- jsoup抓取页面元素
- httpclient+jsoup抓取数据
- 快速使用MPAndroidChart实现图表制作
- android 网络连接的判断
- idea创建spring boot集成使用dubbo、zookepper
- 2017.11月计划
- a标签中href=""的几种用法
- jsoup教程011-jsoup+Hibernate抓取某站9万条文章
- Linux system 软件管理
- Java8 Predicate
- React中Mixin的使用
- GameEntity(六)—— IChat
- python np库小知识点补充 mat npy 转换
- 单例与多线程
- android基础UI控件
- Java8 Supplier