使用Jsoup 抓取本人CSDN博客文章列表的数据

来源:互联网 发布:hack支付源码 编辑:程序博客网 时间:2024/05/14 07:05

 代码:

package cn.test.webcap;import java.io.IOException;import java.security.KeyManagementException;import java.security.NoSuchAlgorithmException;import java.sql.SQLException;import java.text.ParseException;import org.jsoup.Jsoup;import org.jsoup.Connection.Method;import org.jsoup.Connection.Response;import org.jsoup.nodes.Document;import org.jsoup.select.Elements;public class CSDNTest {static int time_out = 300000;public static void main(String[] args) throws SQLException,KeyManagementException, NoSuchAlgorithmException,InterruptedException, ParseException,IOException {// TODO Auto-generated method stubSystem.out.println("Start!");String url_main = "http://blog.csdn.net/linhaiyun_ytdx?viewmode=contents";Response res_main = Jsoup.connect(url_main).method(Method.GET).header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36").header("Connection","keep-alive").ignoreContentType(true).timeout(time_out).execute(); Document doc = res_main.parse();Elements e = doc.select("div.list_item_new").select("div.contents >div");//System.out.println("你抓取的页面数据为:"+e);for (int i=0 ; i<e.size();i++) {String title = doc.select("div.article_title > h1 > span >a").get(i).text();String time = doc.select("div.article_manage > span.link_postdate").get(i).text();String view = doc.select("div.article_manage > span.link_view").get(i).text();String comments = doc.select("div.article_manage > span.link_comments").get(i).text();System.out.println(title + "----"+time+"----"+view+"----"+comments);}System.out.println("本页总共"+e.size()+"条数据");System.out.println("End!");}}


截图:



获取的数据:

Start!
[置顶] 一位资深程序员大牛给予Java学习者的学习路线建议----2017-02-17 00:27----阅读(163)----评论(0)
使用Jsoup 简单抓取页面的数据----2017-07-20 19:55----阅读(12)----评论(0)
JFreeChart 制作柱状图分析数据----2017-07-14 09:35----阅读(50)----评论(0)
JFreeChart 制作3D饼状图分析数据----2017-07-14 09:35----阅读(60)----评论(0)
JFreeChart 制作折线图分析数据----2017-07-13 22:10----阅读(41)----评论(0)
防机器登录验证码的实现 与 输入匹配验证----2017-07-09 19:30----阅读(49)----评论(0)
通知类短信接口的实现----2017-07-09 19:30----阅读(46)----评论(0)
Servlet +JSP+Javabean 实现用户登录注册----2017-07-01 11:11----阅读(61)----评论(0)
数字签名算法的具体使用测试----2017-07-01 10:55----阅读(37)----评论(0)
短信验证码接口的实现----2017-07-01 10:44----阅读(44)----评论(0)
数字签名算法的实现----2017-06-16 16:59----阅读(90)----评论(0)
Oracle 课程设计源码----2017-06-15 21:51----阅读(56)----评论(0)
C3P0数据库连接池SQL语句的简单总结----2017-06-08 21:08----阅读(131)----评论(0)
Oracle用户权限与安全----2017-06-08 21:08----阅读(107)----评论(0)
MongoDB 的基本使用----2017-05-29 22:39----阅读(154)----评论(0)
软件设计的目标----2017-05-29 16:34----阅读(104)----评论(0)
经典软件体系结构风格(五)----2017-05-29 16:33----阅读(212)----评论(0)
博客系统开发推送第六季----留言板模块----2017-05-27 14:46----阅读(193)----评论(1)
博客系统开发推送第五季----个人相册模块----2017-05-26 17:31----阅读(176)----评论(0)
JSP使用URL编码传递中文参数问题的解决----2017-05-23 22:39----阅读(109)----评论(0)
博客系统开发推送第四季----网站框架的搭建及博客模块功能的完善----2017-05-20 15:00----阅读(328)----评论(0)
博客系统开发推送第三季----文章的归档分类----2017-05-17 17:04----阅读(108)----评论(0)
博客系统开发推送第二季----数据库设计----2017-05-17 17:02----阅读(87)----评论(0)
DBCP数据连接池----2017-05-12 09:51----阅读(79)----评论(0)
常见三种数据库连接池在WEB程序的应用总结----2017-05-12 09:41----阅读(119)----评论(0)
经典软件体系结构风格(四)----2017-05-09 21:58----阅读(108)----评论(0)
经典软件体系结构风格(三)----2017-05-09 21:27----阅读(180)----评论(0)
父子实例的内存控制--继承成员变量和继承方法的区别----2017-05-09 20:24----阅读(83)----评论(0)
父类构造器的隐式调用和显式调用----2017-05-09 20:23----阅读(91)----评论(0)
博客系统开发推送第一季----编写发表博客,并生成阅读摘要----2017-05-09 10:36----阅读(143)----评论(0)
高仿CSDN编写文章,发表文章的工具----2017-05-05 22:58----阅读(283)----评论(0)
Bootstrap 前端框架制作响应式网站----2017-05-03 22:39----阅读(541)----评论(0)
Linux 系统常用命令----2017-05-02 17:56----阅读(256)----评论(0)
Linux 网络基础配置----2017-05-02 17:56----阅读(198)----评论(0)
Oracle 创建/调用函数小示例----2017-05-02 17:56----阅读(325)----评论(0)
Oracle 存储过程的默认值参数和过程中的事务处理----2017-05-02 17:55----阅读(117)----评论(0)
Oracle 使用IN OUT参数创建/调用存储过程----2017-05-02 17:55----阅读(86)----评论(0)
Oracle 使用OUT参数创建/调用存储过程----2017-05-02 17:55----阅读(336)----评论(0)
Oracle 使用IN参数创建/调用存储过程----2017-05-02 17:54----阅读(233)----评论(0)
CentOS 7.0 进入单用户模式修改Root密码----2017-05-01 18:32----阅读(200)----评论(0)
Linux 系统启动详解----2017-05-01 18:31----阅读(220)----评论(0)
Linux 命令行文本处理工具----2017-05-01 18:31----阅读(189)----评论(0)
Linux 多命令协作:管道及重定向----2017-05-01 18:31----阅读(1107)----评论(0)
YUM 软件管理----2017-04-30 15:44----阅读(207)----评论(0)
RPM 软件包管理----2017-04-30 15:44----阅读(212)----评论(0)
Linux 扩展权限----2017-04-30 15:44----阅读(215)----评论(0)
Linux 权限机制----2017-04-29 10:31----阅读(233)----评论(0)
Linux 用户基础----2017-04-29 10:31----阅读(204)----评论(0)
Linux 系统挂载管理----2017-04-26 18:30----阅读(81)----评论(0)
Linux 文件系统管理----2017-04-26 18:30----阅读(88)----评论(0)
使用fdisk分区进行磁盘管理----2017-04-25 22:16----阅读(94)----评论(0)
本页总共51条数据
End!