网页爬虫 静态网页<一>

来源:互联网 发布:浏览器打不开淘宝图片 编辑:程序博客网 时间:2024/05/14 18:58

一、通过Jsoup请求获取 网页审查元素。


     eg:


     REQUEST_PATH = "http://blog.csdn.net/a289973483/article/details/52790217";


     Document doc = Jsoup.connect(REQUEST_PATH).get();


二、查看需要扣取数据的标签,通过日志输出 doc的body。


     eg:


     Log.v(TAG, "body :"+ doc.body());


三、查看打印的日志,找到需要的数据的节点。


    eg:
   

    可以看到其中的需要的主体本在在article_c节点中。


四、通过article_c节点 获取到内容。


    eg: 


    Elements allElements = doc.getElementsByClass("article_c");


五、通过获取的元素 读取元素中的文本。


    eg:


    int size = allElements.size();
    Log.v(TAG, "size" + size);
    String reslut = "";
    if(size> 0 ){
                ArrayList<String> listtemp = new ArrayList<String>();
                for (Element ele : allElements) {
                    String text = ele.text();
                    listtemp.add(text);
                    reslut += text;
                    Log.v(TAG, "TEXT: " + text);
    }
    final String finalReslut = reslut;
    runOnUiThread(new Runnable() {
           @Override
         public void run() {
         hellworld.setText(finalReslut);
    }
   });
    //DetailDataUtil.getStockList(listtemp);
            
}


相关的JAR包:http://download.csdn.net/download/a289973483/10107792

做调试用的源码,仅供参考:http://download.csdn.net/download/a289973483/10107891



原创粉丝点击