用Jsoup获取网页中阅读数、浏览数等后台数据

来源:互联网 发布:2017流行的网络用语 编辑:程序博客网 时间:2024/06/06 12:47

用Jsoup解析新闻等内容时,爬取到的阅读数总是空。仔细查看后发现阅读数是script从后台获取显示的,不是静态显示的所以爬取得到的是空。

        

        解决方法是从网页中找到script链接,然后连接链接获取阅读数的返回信息。最后对其解析获取到阅读数。


                                                                                                      图1 找到所需要动态数据的链接



                                                                                                        图2 刷新网页,通过Response查看返回的内容




          获取到返回的内容后通过简单的代码获取阅读数,代码如下:

                       connectionUrl = new ConnectionUrl(script_url);
count = connectionUrl.GetHtml();


count = count.substring(count.indexOf("hits"));
if (count != null) {
count = count.substring(13, count.length() - 3);
}







0 0
原创粉丝点击