WebMagic(三)----抓取CSDN博客通过JDBC保存到数据库中去
来源:互联网 发布:2016最新幸运28源码 编辑:程序博客网 时间:2024/05/23 10:48
数据库使用的是MySQL,新建test数据库创建csdnblog表:
CREATE TABLE `csdnblog` ( `id` int(11) unsigned NOT NULL auto_increment, `keyes` int(11) unsigned NOT NULL, `titles` varchar(255) NOT NULL, `content` varchar(10240) NOT NULL, `dates` varchar(16) default NULL, `tags` varchar(255) default NULL, `category` varchar(255) default NULL, `views` int(11) unsigned default NULL, `comments` int(11) unsigned default NULL, `copyright` int(1) unsigned default NULL, PRIMARY KEY (`id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;
接着新建实体类对应博客文章:
CsdnBlog.java
public class CsdnBlog {private int key;// 编号private String title;// 标题private String date;// 日期private String tags;// 标签private String category;// 分类private int view;// 阅读人数private int comments;// 评论人数private int copyright;// 是否原创private String content; //文字内容public String getContent() {return content;}public void setContent(String content) {this.content = content;}public int getKey() {return key;}public void setKey(int key) {this.key = key;}public String getTitle() {return title;}public void setTitle(String title) {this.title = title;}public String getDate() {return date;}public void setDate(String date) {this.date = date;}public String getTags() {return tags;}public void setTags(String tags) {this.tags = tags;}public String getCategory() {return category;}public void setCategory(String category) {this.category = category;}public int getView() {return view;}public void setView(int view) {this.view = view;}public int getComments() {return comments;}public void setComments(int comments) {this.comments = comments;}public int getCopyright() {return copyright;}public void setCopyright(int copyright) {this.copyright = copyright;}@Overridepublic String toString() {return "CsdnBlog [key=" + key + ", title=" + title + ", content=" + content + ",date=" + date + ", tags=" + tags + ", category="+ category + ", view=" + view + ", comments=" + comments + ", copyright=" + copyright + "]";}}
Dao类
CsdnBlogDao.java:
public class CsdnBlogDao {private Connection conn = null;private Statement stmt = null;public CsdnBlogDao() {try {Class.forName("com.mysql.jdbc.Driver");String url = "jdbc:mysql://localhost:3306/test?"+ "user=root&password=123&useUnicode=true&characterEncoding=UTF8";conn = DriverManager.getConnection(url);stmt = conn.createStatement();} catch (ClassNotFoundException e) {e.printStackTrace();} catch (SQLException e) {e.printStackTrace();}}public int add(CsdnBlog csdnBlog) {try {String sql = "INSERT INTO `test`.`csdnblog` (`keyes`, `titles`, `content` , `dates`, `tags`, `category`, `views`, `comments`, `copyright`) VALUES (?, ?, ?, ?, ?, ?, ?, ?,?);";PreparedStatement ps = conn.prepareStatement(sql);ps.setInt(1, csdnBlog.getKey());ps.setString(2, csdnBlog.getTitle());ps.setString(3,csdnBlog.getContent());ps.setString(4, csdnBlog.getDate());ps.setString(5, csdnBlog.getTags());ps.setString(6, csdnBlog.getCategory());ps.setInt(7, csdnBlog.getView());ps.setInt(8, csdnBlog.getComments());ps.setInt(9, csdnBlog.getCopyright());return ps.executeUpdate();} catch (SQLException e) {e.printStackTrace();}return -1;}}
测试类:
CsdnBlogPageProcessor.java
public class CsdnBlogPageProcessor implements PageProcessor {private static String username="CHENYUFENG1991"; // 设置csdn用户名private static int size = 0;// 共抓取到的文章数量// 抓取网站的相关配置,包括:编码、抓取间隔、重试次数等private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);public Site getSite() {return site;}// process是定制爬虫逻辑的核心接口,在这里编写抽取逻辑public void process(Page page) {// 列表页if (!page.getUrl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/\\d+").match()) {// 添加所有文章页page.addTargetRequests(page.getHtml().xpath("//div[@id='article_list']").links()// 限定文章列表获取区域.regex("/" + username + "/article/details/\\d+").replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替换给把相对url转换成绝对url.all());// 添加其他列表页page.addTargetRequests(page.getHtml().xpath("//div[@id='papelist']").links()// 限定其他列表页获取区域.regex("/" + username + "/article/list/\\d+").replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替换给把相对url转换成绝对url.all());// 文章页} else {size++;// 文章数量加1// 用CsdnBlog类来存抓取到的数据,方便存入数据库CsdnBlog csdnBlog = new CsdnBlog();// 设置编号csdnBlog.setKey(Integer.parseInt(page.getUrl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/(\\d+)").get()));// 设置标题csdnBlog.setTitle(page.getHtml().xpath("//div[@class='article_title']//span[@class='link_title']/a/text()").get());//设置内容csdnBlog.setContent(page.getHtml().xpath("//div[@class='article_content']/allText()").get());// 设置日期csdnBlog.setDate(page.getHtml().xpath("//div[@class='article_r']/span[@class='link_postdate']/text()").get());// 设置标签(可以有多个,用,来分割)csdnBlog.setTags(listToString(page.getHtml().xpath("//div[@class='article_l']/span[@class='link_categories']/a/allText()").all()));// 设置类别(可以有多个,用,来分割)csdnBlog.setCategory(listToString(page.getHtml().xpath("//div[@class='category_r']/label/span/text()").all()));// 设置阅读人数csdnBlog.setView(Integer.parseInt(page.getHtml().xpath("//div[@class='article_r']/span[@class='link_view']").regex("(\\d+)人阅读").get()));// 设置评论人数csdnBlog.setComments(Integer.parseInt(page.getHtml().xpath("//div[@class='article_r']/span[@class='link_comments']").regex("\\((\\d+)\\)").get()));// 设置是否原创csdnBlog.setCopyright(page.getHtml().regex("bog_copyright").match() ? 1 : 0);// 把对象存入数据库new CsdnBlogDao().add(csdnBlog);// 把对象输出控制台System.out.println(csdnBlog);}}// 把list转换为string,用,分割public static String listToString(List<String> stringList) {if (stringList == null) {return null;}StringBuilder result = new StringBuilder();boolean flag = false;for (String string : stringList) {if (flag) {result.append(",");} else {flag = true;}result.append(string);}return result.toString();}public static void main(String[] args) {long startTime, endTime;System.out.println("【爬虫开始】...");startTime = System.currentTimeMillis();// 从用户博客首页开始抓,开启5个线程,启动爬虫Spider.create(new CsdnBlogPageProcessor()).addUrl("http://blog.csdn.net/" + username).thread(5).run();endTime = System.currentTimeMillis();System.out.println("【爬虫结束】共抓取" + size + "篇文章,耗时约" + ((endTime - startTime) / 1000) + "秒,已保存到数据库,请查收!");}}
运行main方法数据就保存到数据库中去了。
完整的demo: http://download.csdn.net/detail/u011781521/9672531
0 0
- WebMagic(三)----抓取CSDN博客通过JDBC保存到数据库中去
- WebMagic(三)----抓取CSDN博客通过JDBC保存到数据库中去
- WebMagic(二)----抓取CSDN博客、并打印
- WebMagic(二)----抓取CSDN博客、并打印
- 使用python抓取csdn博客访问量并保存在sqlite3数据库中
- 利用webmagic爬去招聘信息,并输入到Hbase数据库中
- 怎样将DataSet一次性保存到数据库中去?
- PHP抓取网页图片保存到数据库
- 将Log日志通过Hibernate保存到数据库中
- OneNote笔记保存到CSDN博客
- 基于WebMagic的CSDN博客爬虫
- 使用WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库(一)
- WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库(二)
- 使用python爬虫抓取页面之后,将页面保存到Mysql数据库中
- 使用JDBC保存文件到数据库
- JDBC中将图片保存到数据库
- JDBC中将图片保存到数据库
- JDBC中将图片保存到数据库
- 安卓短信验证功能实现 (引用MOB SDK)
- BZOJ 1111: [POI2007]四进制的天平Wag DP+高精度
- MySQL 5.7.16 Winx64 解压版,首次安装 Root 随机密码如何查找~
- Halcon中使用OCR时字符的分割以及字符粘连的处理方法
- 欢迎使用CSDN-markdown编辑器
- WebMagic(三)----抓取CSDN博客通过JDBC保存到数据库中去
- RubyGems
- 初次开发Android APP遇到的几个问题及其解决
- 1. 什么是JVM?
- Redis基本数据类型及其用法
- 【个人开源】dos命令实现七牛云的空间备份和m3u8列表的备份与删除操作
- 第二十七天学习笔记
- 微信小程序注册流程
- 【42.49%】【hdu 1542】Atlantis(线段树扫描线简析)