关于采集器和浏览器内核的思考(完整版)

来源:互联网 发布:淘宝如何上传宝贝图片 编辑:程序博客网 时间:2024/05/30 05:16

做了多年的采集工作,对这个技术点有了较多的感悟,这里和大家分享一下,欢迎批评指正。 

目前采集技术的几个基本方面:
1.可达性
:信息能否被获取
2.效率:如何高效的获取,这里包括两种:
A.通用的效率问题:
a.SOCKET层次的效率问题

b.JS层次的效率问题

B.针对性的效率问题

根据目标网站的逻辑特点,采用针对性的采集算法。包括针对性的查重算法,针对性的刷新算法,避免重复采集和无效采集。
3.系统集成
采集系统如何集成,如何同抽取算法形成一个整体,使得在系统上保证采全率,采集抽取正确率,实时性,网站适应性。达到整个系统的最优状态。
4.防采集问题
采集程序是一种交互程序,他不是单纯的程序行为,而是一种社会行为。


采集技术的最重要的特点是被动的跟随的发展。随着互联网的发展,不断面临新的技术挑战.

基本过程概括如下:
1.Web1.0时代

在互联网发展的初期,网站是各自建立的,技术上以TCP、HTTP技术为核心,功能上以信息发布为主
相对应的采集器技术是以Socket技术,链接提取为核心的,
在系统上结合url查重,分布式技术。
相关研究以主题采集,刷新算法为主。以最小的代价获取所需的内容。


2.web2.0时代
Web2.0 则更注重用户的交互作用,用户既是网站内容的浏览者,也是网站内容的制造者
  在新闻,论坛和博客兴起后,这些网站有同样的结构。
主要挑战集中在如何及时的获取新出现的信息?如何适应并利用这些网站结构,开发相应的采集算法。


3.JS/AJAX/HTML5兴起
富JS技术,包括HTML5的逐步兴起给了采集技术新的挑战,比如Canvas,未来是否成为网站开发技术主流还未可知。
采集的基本问题从下载一个页面的问题,变成一个下载一个交互程序,提供交互操作,判断程序结束,并获取程序结果。
因为JS技术与浏览器环境关系紧密,使得浏览器技术成为解决这类问题最重要的途径。
但事实上并非不能脱离浏览器,如何吃透浏览器和JS程序,并根据采集问题优化,将是JS技术普遍应用后的需要解决的问题。
如果这样,未来浏览器技术将是采集技术的核心。
原创粉丝点击