通用网络采集系统的开发实验
来源:互联网 发布:视频数据分析的应用 编辑:程序博客网 时间:2024/05/21 22:21
采集,顾名思义,就是把别人网站上的东西,采集到自己的数据库,发布到自己的网站上。
虽然这么做有点不道德,但是从技术上来讲,我们是可以来研究研究的。只要你不用来祸害别人,不给社会造成恶劣的影响,这都是可以理解的。
换句话说,你可以没有车,但是你要有驾照,不要得到别人免费送你一辆车你却开不走 ,就很没有意思了。。。
好了,不废话了。
国庆期间,我出于兴趣,研究了一下采集。
目标是:只要给我一个网站,就可以把主要内容采集下来,把相关图片下载到本地。只能能达到这个目的 就OK了。
先来上2个图:
点击打开链接 查看具体采集效果
下面来解释一下:
整个过程只需两步,
第一步:指定采集的网站集合合规则
第2步:执行采集
最关键的是第一步,因为这是这个采集的源头,具体网址的采集 会根据正则表达式去提取有效的地址。
例如:你设置了采集网站的域名为QQ。com ,那么你首先要设置这个域名,然后在设置具体的有效的地址
的正则规则,
每个网站都包含有标题和具体内容这两项;因此只要设置这两个提取标题的内容,就可以了。至于内容中的
图片,也是靠正则提取,采用数据流的方式进行下载到本地的。
现在到本地以后,你可以创建缩略图或者添加水印 都是可以的
0 0
- 通用网络采集系统的开发实验
- 通用网页数据采集系统的架构和运行机理
- 通用网页数据采集系统的架构和运行机理
- 通用网页数据采集系统的架构和运行机理
- 1-15 实验12 ZigBee无线传感器网络远程数据采集系统
- PHP开发通用采集入库程序
- 网络信息采集系统应具备的功能
- 网络系统实验:交换机的配置
- 基于通用数据结构的系统开发
- 昨日关注:通用网页数据采集系统的架构和运行机理
- 通用数据采集与统计分析管理系统,随数据库结构的调整而自动调整
- 网络实验系统设计
- 通用调查系统开发
- 信息采集系统开发第一版
- 曾经开发的一个武冈市市民意见采集系统
- win系统通用的建立虚拟专用网络的方法
- 准备写一个通用的采集程序
- 通用网络信息采集器(爬虫)设计方案
- 游戏术语扫盲贴(手游人必懂)
- linux文件重命名命令
- Java 比较两个List的差异,并取出不同的对象
- Linux CPU实时监控mpstat命令详解
- linux内核register_chrdev_region()系列函数
- 通用网络采集系统的开发实验
- Linux进程内存分析pmap命令(转)
- Android.mk添加第三方jar包
- vtk安装
- 进度条实现
- Linux rm 删除指定文件
- Spring-4.0.1+Hibernate-4.3.2+Struts-2.3.16环境配置(包含hibernate二级缓存和spring缓存)
- oracle 单引号 双引号
- 遗失在流年里的记忆