关于采集器和浏览器内核的思考(完整版)
来源:互联网 发布:淘宝如何上传宝贝图片 编辑:程序博客网 时间:2024/05/30 05:16
做了多年的采集工作,对这个技术点有了较多的感悟,这里和大家分享一下,欢迎批评指正。
目前采集技术的几个基本方面:1.可达性:信息能否被获取
2.效率:如何高效的获取,这里包括两种:
A.通用的效率问题:
a.SOCKET层次的效率问题
b.JS层次的效率问题
B.针对性的效率问题
根据目标网站的逻辑特点,采用针对性的采集算法。包括针对性的查重算法,针对性的刷新算法,避免重复采集和无效采集。3.系统集成
采集系统如何集成,如何同抽取算法形成一个整体,使得在系统上保证采全率,采集抽取正确率,实时性,网站适应性。达到整个系统的最优状态。
4.防采集问题
采集程序是一种交互程序,他不是单纯的程序行为,而是一种社会行为。
采集技术的最重要的特点是被动的跟随的发展。随着互联网的发展,不断面临新的技术挑战.
基本过程概括如下:
1.Web1.0时代
在互联网发展的初期,网站是各自建立的,技术上以TCP、HTTP技术为核心,功能上以信息发布为主
相对应的采集器技术是以Socket技术,链接提取为核心的,
在系统上结合url查重,分布式技术。
相关研究以主题采集,刷新算法为主。以最小的代价获取所需的内容。
2.web2.0时代
Web2.0 则更注重用户的交互作用,用户既是网站内容的浏览者,也是网站内容的制造者
在新闻,论坛和博客兴起后,这些网站有同样的结构。
主要挑战集中在如何及时的获取新出现的信息?如何适应并利用这些网站结构,开发相应的采集算法。
3.JS/AJAX/HTML5兴起
富JS技术,包括HTML5的逐步兴起给了采集技术新的挑战,比如Canvas,未来是否成为网站开发技术主流还未可知。
采集的基本问题从下载一个页面的问题,变成一个下载一个交互程序,提供交互操作,判断程序结束,并获取程序结果。
因为JS技术与浏览器环境关系紧密,使得浏览器技术成为解决这类问题最重要的途径。
但事实上并非不能脱离浏览器,如何吃透浏览器和JS程序,并根据采集问题优化,将是JS技术普遍应用后的需要解决的问题。
如果这样,未来浏览器技术将是采集技术的核心。
- 关于采集器和浏览器内核的思考(完整版)
- 关于浏览器事件的思考
- 关于嵌入浏览器架构的一些总结和思考
- 关于浏览器内核的认知
- 关于各种浏览器的内核
- 关于手机浏览器用户群的思考
- 关于浏览器核心的一些思考
- 关于微内核的一点思考
- 关于浏览器内核的基本介绍
- 关于浏览器内核的一些概念
- 关于浏览器内核的一些概念
- 关于浏览器内核的一些概念
- 关于OLEDB和的思考
- OOP和Linux内核的一点思考
- 浏览器相关(1)- 浏览器的构成和主要浏览器的内核
- 关于浏览器内核的一些小知识,明明白白选浏览器
- 关于浏览器内核的一些小知识,明明白白选浏览器
- 关于浏览器内核的一些小知识,明明白白选浏览器!
- SlidesJS基本使用方法和官方文档解释 【Jquery幻灯片插件 Jquery相册插件】
- 关于Android BroadcastReceiver一点点需要注意的地方
- 基本语言细节--inline函数的几点分析
- Linkedin C++ group 的拒绝邮件
- Linux下安装oracle(转载)
- 关于采集器和浏览器内核的思考(完整版)
- java 泛型学习
- 求四个数的最大公约数
- webservice开发:Myeclipse里整合asix2和hibernate,并同时连sql server 2008 和 oracle 11g个人总结
- rsa加密跨语言的那点事
- IE7 float:right 时元素换行错位的bug 解决方法(2)
- java开发安装步骤
- 官方SPRITE KIT游戏ADVENTURE流程
- ubuntu下配置GLUT+CodeBlocks