Android实战 Jsoup实现网络爬虫,糗事百科项目的起步
来源:互联网 发布:淘宝官方旗舰店是正品 编辑:程序博客网 时间:2024/06/05 18:03
原文链接:http://mp.weixin.qq.com/s?__biz=MzAxMTI4MTkwNQ==&mid=2650822053&idx=1&sn=3600e1e040be990976fb7139a2d31151&chksm=80b7813bb7c0082d0b551b9633adce1748a575ce4bf0e64a5317af4aed7b455ae8780aee508a&mpshare=1&scene=23&srcid=0502D0k33qWZcbqvc3760WDq#rd
每日推荐
在Android 7.0(Nougat)推出了新的应用签名方案APK Signature Scheme v2后,之前快速生成渠道包的方式很多已经行不通了(或者需要关闭该选项),
美团已经针对新的签名方案APK Signature Scheme v2,提出了新一代渠道生成工具并进行详细深入的介绍。
文章:
http://tech.meituan.com/android-apk-v2-signature-scheme.html
开源项目:
https://github.com/Meituan-Dianping/walle
作者
本文由Hensen_投稿。
Hensen_的博客地址:
http://blog.csdn.net/qq_30379689
前言
对于Android初学者想要做项目时,最大的烦恼是什么?毫无疑问是数据源的缺乏,当然可以选择第三方接口提供数据,也可以使用网络爬虫获取数据,这样就不用第三方数据作为支持。
本来是打算爬一些购物网站的数据,由于他们的反爬做得好,所以没办法爬到数据,只能爬取糗事百科的数据,或许聪明的你会想到可以高仿个糗事百科作为自己的练手项目,利用jsoup是完全没问题的。
jsoup的学习需要结合前端的基础知识,如果你学过JS(Android开发者需要掌握一点JavaScript了),那么你可以自己完全不用看文档的情况下,使用该框架,因为其设计与JS的使用几乎相同,废话不多说,开车啦。
jsoup的简介和使用
Jsoup的简介
使用项目原话:jsoup是一个Java库来处理实际的HTML。它提供了一个非常方便的API来提取和操纵数据,使用最好的DOM,CSS和jQuery-like方法
项目地址:
https://github.com/jhy/jsoup
中文文档:
http://www.open-open.com/jsoup/
Jsoup的配置
jsoup的配置很简单,需要在gradle中添加以下依赖
compile 'org.jsoup:jsoup:1.10.2'
由于jsoup需要获取网络数据,所以记得添加网络权限
<uses-permission android:name="android.permission.INTERNET" />
Jsoup的使用
(1)获取HTML
jsoup提供两种网络请求,get和post,使用代码也及其简单,我们首先爬取糗事百科首页的HTML。注意:由于是网络请求操作,必须放在子线程中运行,否则4.4以上的版本会报错。
① get方式(若图片无法显示,请跳转原文链接:http://blog.csdn.net/qq_30379689/article/details/55005796)
② post方式
这里对post的参数介绍一下
connect:设置连接的Url
data:设置post的键值对数据
userAgent:设置用户代理(请求头的东西,可以判断你是PC还是Mobile端)
cookie:设置缓存
timeout:设置请求超时
post:发送post请求
既然已经获取HTML的Document对象了,接下来就是分析Html元素的时候了
(2)获取Html元素
① 网页端
以糗事百科为例子,我们查看糗事百科首页的数据对应的Html元素是什么,我们可以通过F12,找到对应的Html元素
可以看到一个a标签就是文章详情的内容,我们可以通过这个a标签的class=”contentHerf”作为唯一标识来获取该链接,获取之后,继续爬取详情页的文章详细内容,所以我们通过爬取的a标签的链接进入该文章的详情页
当然也有一些详情页有图片的,我们可以通过图片的的class=”thumb”作为唯一标识来爬取图片里面的链接
由于糗事百科采用分页加载的情况,我们需要在爬取完第一张内容后,接着爬取第二章的内容,下面是糗事百科的分页Url的规则,很简单,我们可以通过一个循环就可以了。
http://www.qiushibaike.com/8hr/page/1/http://www.qiushibaike.com/8hr/page/2/http://www.qiushibaike.com/8hr/page/3/http://www.qiushibaike.com/8hr/page/4/http://www.qiushibaike.com/8hr/page/5/
好了,分析完网页端之后,就应该在我们的Android端采用代码,将上面的步骤实现出来了。
(3)Android端实现
通过上面的分析后,可以总结我们需要实现的步骤有:
爬取主页的详情页url
进入详情页爬取内容和图片
循环爬取第二页、第三页…
聪明的你,可能会想到第四步第五步…
封装Bean对象
使用ListView填充内容
爬取日期、作者、评论等内容完善项目
1) 爬取主页的详情页url
爬取主页的url可以通过a标签的class=”contentHerf”,我们通过jsoup的属性选择器来实现,这里会用到css知识,jsoup中文文档也有很详细的介绍
这里对使用到的对象进行介绍
Document:相当于一个Html文件
Elements:相当于一个标签的集合
Element:相当于一个标签
这里要注意Elements与Element的toString()方法和text()方法
toString():打印出来的是标签的Html内容
text():打印出来的是标签对应的文本内容
css选择器
select():获取符合属性选择器要求的标签内容
或getElementById:获取符合ID选择器要求的标签内容
或getElementsByTag:获取符合Tag选择器要求的标签内容
2) 进入详情页爬取内容和图片
这段代码也相当简单,这里就不多解释了
3) 循环爬取第二页、第三页…
这里只需要嵌套一个循环进去就可以了,完整代码如下
4) 当然,我们爬取到的内容之后,毫无疑问就是要封装成对象,通过ArrayList存储起来,这样你的数据源就解决了
public class Xiaohua { private String content; private String title; private String url; private String userName; private String date;}
5) 后面爬取作者、日期、评论等信息就由你们去练习了,然后界面一仿,项目就出来了
(4)爬取结果
结语
网络爬虫虽然带来了很多数据源的问题,但很多网站都已经通过一些技术实现反爬虫的效果了,所以大家还是以学习jsoup为主,不管是Android端还是Web端jsoup的用处很广泛,所以掌握起来是必须的,听说豆瓣和知乎都可以爬出来哦,想做学习项目的同学可以去试试哦。
注意:该技术仅作为学习使用,商业化使用注意版权问题。
- Android实战——jsoup实现网络爬虫,糗事百科项目的起步
- Android实战——jsoup实现网络爬虫,糗事百科项目的起步
- Android实战 Jsoup实现网络爬虫,糗事百科项目的起步
- android实战jsoup实现网络爬虫爬糗事百科主界面
- [Android] - Jsoup实现网络爬虫,获取糗事百科数据
- 糗事百科的网络爬虫
- 爬虫实战--糗事百科
- Python爬虫实战:糗事百科
- [Python]糗事百科的网络爬虫(v0.4)源码
- Swift实现糗事百科Demo(实战项目)
- Swift实现糗事百科Demo(实战项目)
- Python 爬虫实战 - 糗事百科段子
- Python爬虫实战之爬糗事百科
- python3爬虫(二)实战- 爬糗事百科
- Scrapy爬虫实战四:糗事百科
- Python网络爬虫抓取糗事百科
- 【网络爬虫】爬取糗事百科段子
- Python爬虫实现爬取糗事百科
- Linux C++ 获取某一进程的CPU占用率以及内存占用情况
- Easy-1
- Intellij IDEA Debug调试技巧
- 低功耗电池类移动视频方案
- 关于JavaScript数组,你所不知道的3件事
- Android实战 Jsoup实现网络爬虫,糗事百科项目的起步
- 系统恢复技术
- MySQL 处理海量数据时的一些优化查询速度方法
- JAVA JNI技术
- jsp连接调用数据库小结
- 为什么在Spring的配置里,最好不要配置xsd文件的版本号
- java 线程模拟
- 3.Flume简单应用-netcat
- stm32 最小系统设计