jsoup爬取网页数据
来源:互联网 发布:美的网络专供 代码 编辑:程序博客网 时间:2024/05/17 03:36
使用jsoup
导入依赖:
compile 'org.jsoup:jsoup:1.10.3'
使用Jsoup解析 果壳网 -> 小组 的数据
- 请求网络需要异步进行;
- 注意申请权限;
- 使用Jsoup.connect()方法需要抛异常;
- 解析果壳网:
- 首先链接需要解析的网址,使用Jsoup的connect()方法:
//http://www.guokr.com/group/ Document document = Jsoup.connect("http://www.guokr.com/group/").get(); //System.out.println(document); Log.e(TAG, "parsingGuoKr: 标题" + document.title());//获取标题
- getElementsByClass()方法查找class中的元素,通常返回一个Elements集合;
//通过class查找元素 Elements titles = document.getElementsByClass("titles");
- 通过first()方法获取集合中的第一个元素:
//第一个titles中的所有元素 Element l1 = titles.first();
- 通过getElementsByTag()方法获取标签;
//获取所有的li标签 Elements li = titles.first().getElementsByTag("li");//获取所有的li标签
- 遍历Elements数组,获取每一个title-link块中的标题:
for (Element e : li) { //获取到title-link元素集,再获取第一个元素 Element elementsByClass = e.getElementsByClass("title-link").first(); ...
- 使用after()方法获取标签中的内容,返回Element;
- 使用text()方法获取文本;
- 使用arrt();方法获取超链接;
... //找到a标签 再获取文本 Element titleA = elementsByClass.after("a"); System.out.println("标题" + titleA.text()); System.out.println("标题的超链接" + titleA.attr("href"));}
- 获取Elements的超链接:
... Elements title_imgs = e.getElementsByClass("title-imgs"); for (Element imgs:title_imgs) { Elements title_img = imgs.getElementsByClass("title-img"); Elements a = title_img.after("a"); for (Element ima : a) { String aStr = ima.toString(); int i1 = aStr.indexOf("("); int i2 = aStr.indexOf(")"); System.out.println(aStr.substring(i1+1,i2)); }}
直接解析String类型Html数据:
- Html.fromHtml(pStr)方法,返回String类型;
final TextView tv = (TextView) findViewById(R.id.tv); Document document = Jsoup.connect("http://www.guokr.com/post/794784/").get(); Element gbbcode_content = document.getElementsByClass("gbbcode-content").first(); final String pStr = gbbcode_content.getElementsByTag("p").toString(); System.out.println(pStr); runOnUiThread(new Runnable() { @Override public void run() { tv.setText(Html.fromHtml(pStr)); } });
阅读全文
0 0
- jsoup爬取网页数据
- Jsoup爬取网页上表格数据
- Android Jsoup 爬取网页数据
- java Jsoup 爬取网页数据
- 【Jsoup爬取网页内容】
- jsoup爬虫爬取网页
- Android Jsoup 爬取网页
- 利用Jsoup爬取网页内容
- 利用Jsoup爬取网页内容
- 利用jsoup爬取网页信息
- Fiddler+JSoup爬取现代汉语语料库数据
- jsoup 分析网页数据
- jsoup 抓取网页数据
- java-jsoup自适应爬取网页表格的内容
- Jython使用jsoup爬取网页标题与链接信息
- jsoup httpclient 爬取网页并下载google图标
- jsoup爬取指定网页的url和图片
- HtmlUnit、httpclient、jsoup爬取网页信息并解析
- Json 格式 toJsonString
- Android使用ItemTouchHelper打造可拖拽的RecyclerView
- Vue keep-alive实践总结
- 面试问题spring cloud和dubbo的区别
- [LeetCode] 39. Combination Sum
- jsoup爬取网页数据
- 2017第九届北京国际锅炉展览会会刊(参展商名录)
- Three学习笔记-1
- <android> webview与h5的交互——上传文件& 调起本地支付接口&响应原生dialog&back键层级返回
- java的(PO,VO,TO,BO,DAO,POJO)解释
- dwg文件快速转为dxf格式
- 分布式事务的典型处理方式:2PC、TCC、异步确保和最大努力型
- 每篇博文是不是需要审核才能看到
- 前端页面自定义分组