CORBA在分布式爬虫中的应用- -
来源:互联网 发布:淘宝的付款方式怎么改 编辑:程序博客网 时间:2024/06/04 20:12
本人虽未南大软院大三学生,但是对于一些技术还是很有研究的想法的。近日我们的体系结构老师布置了搜索引擎大作业,八个人一组的,我负责爬虫,分布式应用的开发。搞了将近3周,小有所成,于是想上来分享一下经验。
个人认为初学搜索引擎者不要用lucene和heritrixs(忘了怎么拼的了- -~),我用这两个做了个小应用,发现实在是什么都封装好了,根本学不到什么东西。
学习之前可以研究一下国内的一些搜索引擎的常用做法。话说我们的作业有点儿变态(个人认为),倒不是功能要求很多,而是性能和非功能需求很多:具体如下:
1、 要求网页爬取每天都进行,每天更新一次储存库。
2、 为具备可能的大量爬取能力,爬取应该能够多机器同时并发进行。实验要求至少3个以上处理器并发。
3、 为了验证大数据量能力,实验要求收集到的网页的数量不低于20万条。
4、 系统要有安全措施,储存的内容应该加密,实验中不要求采用复杂的加密算法,能够进行简单的加密即可。
5、 要求系统能够同时允许大量用户访问,实验要求系统具备一定的载荷(实验要求200用户),如果使用多服务器,那么要具有负载均衡能力。
6、 要求系统反应及时,要能够在10秒内给出查询结果。
7、 系统要具有高可用性,实验要求在查询时,能够返回“非字符匹配”的相关结果(例如查询“南京大学”,能够返回“南大”的信息)。
8、 系统要有容灾能力,如果发生故障,尤其是存储库发生故障,实验要求在4小时内能够恢复工作。
9、 系统要有可靠性,实验要求系统采用冗余机制实现高可靠性。
10、 系统要有可修改性,实验会在后面的阶段安排变更的要求。可能的变更点包括:爬取文档的类型;加密算法;检索匹配算法;排序算法;摘要提取算法;用户输入词汇解析算法。
11、 系统要符合法律规则,实验中要求进行候选敏感词过滤,且敏感词随时可以调整。
12、 系统要符合商业目标,实验要求系统实现竞价策略,即可按照加权的方式对某些搜索结果的先后顺序进行调整。
这些都是质量要求,功能要求就不发了,我在做这个的分布式应用时,选择了CORBA,结果果断很悲剧,网上一搜,资料寥寥无几,不得不去sun官方论坛上去找人帮忙,看人家的老帖,全英文的,搞死人了。那个什么对象传递,中文传递等问题,不过最终都一个个被我解决了,现在我已经实现了大部分功能,之后我会发一下测试数据,希望大家帮我衡量一下我做的这个分布式爬虫的效率。O(∩_∩)O~
- CORBA在分布式爬虫中的应用- -
- CORBA在分布式嵌入式实时系统中的应用
- CORBA在分布式嵌入式实时系统中的应用
- RMI与CORBA在Java中的应用
- CORBA新特性在TMN环境中的应用
- CORBA回调函数在C#项目环境中的应用
- BeautifulSoup在爬虫中的应用
- 正则表达式 在爬虫中的应用
- XPath在python爬虫中的高级应用
- Lease 机制在分布式系统中的应用
- Lease 机制在分布式系统中的应用
- 【架构】zookeeper在分布式应用中的重要作用
- MVCC在分布式系统中的应用
- Lease 机制在分布式系统中的应用
- zookeeper在分布式应用中的作用
- Zookeeper在大型分布式系统中的应用
- Zookeeper在大型分布式系统中的应用
- 缓存在分布式系统中的应用
- alter system switch logfile和alter system archive log current的区别
- 模态对话框的隐藏
- C#面向对象的 this关键字的应用
- 王爽之《汇编语言》学习重点八
- 王爽之《汇编语言》学习重点九
- CORBA在分布式爬虫中的应用- -
- jQuery获取form表单元素的值
- c++实现多态的方法
- 王爽之《汇编语言》学习重点十
- 求职心得
- sql over的作用及用法
- 王爽之《汇编语言》学习重点十一
- 段中的实际数据大小与占用空间大小问题
- linux 学习- 编程基础之多线程编程(创建多线程)