新闻分类抓取 一期
来源:互联网 发布:微信打小说赚钱软件 编辑:程序博客网 时间:2024/05/17 03:04
花了2个星期写完
---------------------
cctv.com
法制 民生 时事 财经
chinanews.com
要闻 社会新闻 娱乐新闻 体育新闻 经济新闻 IT
ifeng.com
滚动新闻 军事 财经 娱乐 体育
hexun.com
滚动新闻 股票 基金
southcn.com
要闻 万象 体育 娱乐
xinhuanet.com
要闻 法制 军事 社会 证券 娱乐 体育
jfdaily.com
首页新闻
jinbw.com
电视 国内新闻
mysql 表结构:(保存字段)
+----------+------------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+----------+------------------+------+-----+---------+----------------+
| id | int(10) unsigned | NO | PRI | NULL | auto_increment |
| domain | varchar(50) | NO | MUL | NULL | |
| title | varchar(258) | NO | | NULL | |
| time | varchar(258) | YES | | NULL | |
| url | varchar(258) | NO | | NULL | |
| source | varchar(258) | YES | | NULL | |
| imgurl | varchar(258) | YES | | NULL | |
| category | varchar(258) | NO | | NULL | |
| content | varchar(6000) | NO | | NULL | |
+----------+------------------+------+-----+---------+----------------+
每15分钟一次,
整体url去重,(简单化,可以顺便减少无谓下载,浪费带宽)
继续完善中
- 新闻分类抓取 一期
- 抓取新闻
- 新闻分类
- 微软安全新闻聚焦-双周刊第十一期
- 微软安全新闻聚焦-双周刊第二十一期
- 微软安全新闻聚焦-双周刊第三十一期
- 继续 新闻抓取
- java新闻抓取程序代码
- 自动新闻抓取系统
- java多线程抓取新闻
- AAuto - 抓取网页新闻
- AAuto - 抓取VOA 新闻
- java多线程抓取新闻
- 用HtmlCleaner抓取新闻
- 用HtmlCleaner抓取新闻
- 抓取腾讯新闻评论
- 抓取网易新闻
- python抓取新闻【华盛顿邮报】
- equals()方法与==的区别
- 关于一个“一个有趣的面试题”
- 如何知道域名的所有权及域名所有权查询
- 运行lucene in action(2nd edition)第一章中的程序
- java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderListener 问题原因。
- 新闻分类抓取 一期
- 无耻微软
- 【Bing Map学习系列】(2)——如何通过Bing Maps Silverlight Control显示地图
- WebDynpro ABAP 中WDALV 的 ToolBar 设置
- 人类无法抗拒的10种心理,学会它,就能控制其它人
- 一个成功的男人如何去追求身边的女人
- 使用SQL Server导入/导出Excel
- Chrome OS的搜集和分析
- 基于TCP的socket编程