网页爬虫 静态网页<一>
来源:互联网 发布:浏览器打不开淘宝图片 编辑:程序博客网 时间:2024/05/14 18:58
一、通过Jsoup请求获取 网页审查元素。
eg:
REQUEST_PATH = "http://blog.csdn.net/a289973483/article/details/52790217";
Document doc = Jsoup.connect(REQUEST_PATH).get();
二、查看需要扣取数据的标签,通过日志输出 doc的body。
eg:
Log.v(TAG, "body :"+ doc.body());
三、查看打印的日志,找到需要的数据的节点。
eg:
可以看到其中的需要的主体本在在article_c节点中。
四、通过article_c节点 获取到内容。
eg:
Elements allElements = doc.getElementsByClass("article_c");
五、通过获取的元素 读取元素中的文本。
eg:
int size = allElements.size();
Log.v(TAG, "size" + size);
String reslut = "";
if(size> 0 ){
ArrayList<String> listtemp = new ArrayList<String>();
for (Element ele : allElements) {
String text = ele.text();
listtemp.add(text);
reslut += text;
Log.v(TAG, "TEXT: " + text);
}
final String finalReslut = reslut;
runOnUiThread(new Runnable() {
@Override
public void run() {
hellworld.setText(finalReslut);
}
});
//DetailDataUtil.getStockList(listtemp);
}
eg:
REQUEST_PATH = "http://blog.csdn.net/a289973483/article/details/52790217";
Document doc = Jsoup.connect(REQUEST_PATH).get();
二、查看需要扣取数据的标签,通过日志输出 doc的body。
eg:
Log.v(TAG, "body :"+ doc.body());
三、查看打印的日志,找到需要的数据的节点。
eg:
可以看到其中的需要的主体本在在article_c节点中。
四、通过article_c节点 获取到内容。
eg:
Elements allElements = doc.getElementsByClass("article_c");
五、通过获取的元素 读取元素中的文本。
eg:
int size = allElements.size();
Log.v(TAG, "size" + size);
String reslut = "";
if(size> 0 ){
ArrayList<String> listtemp = new ArrayList<String>();
for (Element ele : allElements) {
String text = ele.text();
listtemp.add(text);
reslut += text;
Log.v(TAG, "TEXT: " + text);
}
final String finalReslut = reslut;
runOnUiThread(new Runnable() {
@Override
public void run() {
hellworld.setText(finalReslut);
}
});
//DetailDataUtil.getStockList(listtemp);
}
相关的JAR包:http://download.csdn.net/download/a289973483/10107792
做调试用的源码,仅供参考:http://download.csdn.net/download/a289973483/10107891
阅读全文
0 0
- 网页爬虫 静态网页<一>
- Python网页静态爬虫
- 网页爬虫(一)
- python爬虫进阶(一):静态网页爬取
- Python3爬虫【壹】静态网页
- Python入门简单的静态网页爬虫
- Java爬虫——抓取静态网页
- 爬虫学习笔记--爬取静态网页
- 网页爬虫
- 网页爬虫
- 网页爬虫
- 网页爬虫
- 网页爬虫
- 网页爬虫
- 网页爬虫
- 网页爬虫
- 网页爬虫
- 网页爬虫
- 面向对象与面向过程
- 漫画:什么是B-树?
- 正确关闭迅雷右侧浏览器的方法
- HTML-表格的奇数偶数行颜色不同
- QNX安全加密-通过 Certicom 和 QNX 满足安全认证要求
- 网页爬虫 静态网页<一>
- 写一个方法void triangle(int a,int b,int c),判断三个参数是否能构成一个三角形。如果不能则抛出异常IllegalArgumentException,显示异常信息:a,b,
- SpringBoot33-springboot开发部署与测试-spring boot测试
- 使用docker过程中遇到的问题
- (二)连续傅里叶变换与离散傅里叶变换:傅里叶变换(Continuous Time Fourier Transform)
- c++常见面试题总结
- Maven从零开始
- 6.2(2)
- 18.读书笔记收获不止Oracle之 索引SUM和AVG优化