网页爬虫静态网页<一>

来源：互联网发布：浏览器打不开淘宝图片编辑：程序博客网时间：2024/05/14 18:58

一、通过Jsoup请求获取网页审查元素。

eg：

REQUEST_PATH = "http://blog.csdn.net/a289973483/article/details/52790217";

Document doc = Jsoup.connect(REQUEST_PATH).get();

二、查看需要扣取数据的标签，通过日志输出 doc的body。

eg：

Log.v(TAG, "body :"+ doc.body());

三、查看打印的日志，找到需要的数据的节点。

eg:

可以看到其中的需要的主体本在在article_c节点中。

四、通过article_c节点获取到内容。

eg：

Elements allElements = doc.getElementsByClass("article_c");

五、通过获取的元素读取元素中的文本。

eg:

int size = allElements.size();
Log.v(TAG, "size" + size);
String reslut = "";
if(size> 0 ){
ArrayList<String> listtemp = new ArrayList<String>();
for (Element ele : allElements) {
String text = ele.text();
listtemp.add(text);
reslut += text;
Log.v(TAG, "TEXT: " + text);
}
final String finalReslut = reslut;
runOnUiThread(new Runnable() {
@Override
public void run() {
hellworld.setText(finalReslut);
}
});
//DetailDataUtil.getStockList(listtemp);

}

相关的JAR包：http://download.csdn.net/download/a289973483/10107792

做调试用的源码，仅供参考：http://download.csdn.net/download/a289973483/10107891

阅读全文

0 0

网页爬虫 静态网页<一>

网页爬虫静态网页<一>