关于ASP使用服务器采集文章及图片

来源:互联网 发布:苹果公司ife矩阵 编辑:程序博客网 时间:2024/05/28 16:19

我的网站开了有一段时间了。

http://www.9ppk.com

发现自己手工添加信息十分辛苦。

看别人的PHP采集系统用的很爽。

也想弄个采集系统,但是好像真没什么人用asp做采集

而且asp的采集效率怎么样,我也不知道。

于是开始动手了。

其实asp采集原理很简单,

使用xmlhttp访问指定页面,把文章读取,然后使用正则表达式,选出自己需要的内容,最后保存到自己的数据库中。

这里有两个问题

采集的时候如果目标页面访问错误,使用Msxml2.XMLHTTP,没有超时限制,那么服务器会挂掉的。

所以需要使用MSXML2.ServerXMLHTTP,设置XmlHttp.SetTimeOuts 10000, 10000, 15000, 15000就可以了

第二个问题是9ppk.com是做网页图标打包下载的,网页图标总得有预览图片,

图片肯定也得采集回来,否则,别人网站图片删了,我的页面上也全是“大坑”了

采集图片也是用MSXML2.ServerXMLHTTP的。只是读取的是文件流,XmlHttp.ResponseStream.

需要使用ado的stream,把文件保存在服务器上。

关键问题差不多解决了,花了不小功夫可以做采集了。

但是程序一运行,傻眼了,速度好慢呀。采集个1000篇文章,不知道要等到什么时候了。还不定有自己手动快呢。

于是放弃了,还是老老实实自己一篇一篇文章添加吧。

原创粉丝点击