关于采集器和浏览器内核的思考（完整版）

来源：互联网发布：淘宝如何上传宝贝图片编辑：程序博客网时间：2024/05/30 05:16

做了多年的采集工作，对这个技术点有了较多的感悟，这里和大家分享一下，欢迎批评指正。

目前采集技术的几个基本方面：
1.可达性：信息能否被获取
2.效率：如何高效的获取，这里包括两种：
A.通用的效率问题：
a.SOCKET层次的效率问题

b.JS层次的效率问题

B.针对性的效率问题

根据目标网站的逻辑特点，采用针对性的采集算法。包括针对性的查重算法，针对性的刷新算法，避免重复采集和无效采集。
3.系统集成
采集系统如何集成，如何同抽取算法形成一个整体，使得在系统上保证采全率，采集抽取正确率，实时性，网站适应性。达到整个系统的最优状态。
4.防采集问题
采集程序是一种交互程序，他不是单纯的程序行为，而是一种社会行为。

采集技术的最重要的特点是被动的跟随的发展。随着互联网的发展,不断面临新的技术挑战.

基本过程概括如下：
1.Web1.0时代
在互联网发展的初期，网站是各自建立的，技术上以TCP、HTTP技术为核心，功能上以信息发布为主
相对应的采集器技术是以Socket技术，链接提取为核心的，
在系统上结合url查重，分布式技术。
相关研究以主题采集，刷新算法为主。以最小的代价获取所需的内容。

2.web2.0时代
Web2.0 则更注重用户的交互作用，用户既是网站内容的浏览者，也是网站内容的制造者
在新闻，论坛和博客兴起后，这些网站有同样的结构。
主要挑战集中在如何及时的获取新出现的信息？如何适应并利用这些网站结构，开发相应的采集算法。

3.JS/AJAX/HTML5兴起
富JS技术，包括HTML5的逐步兴起给了采集技术新的挑战，比如Canvas，未来是否成为网站开发技术主流还未可知。
采集的基本问题从下载一个页面的问题，变成一个下载一个交互程序，提供交互操作，判断程序结束，并获取程序结果。
因为JS技术与浏览器环境关系紧密，使得浏览器技术成为解决这类问题最重要的途径。
但事实上并非不能脱离浏览器，如何吃透浏览器和JS程序,并根据采集问题优化，将是JS技术普遍应用后的需要解决的问题。
如果这样，未来浏览器技术将是采集技术的核心。