Hawk 搜索引擎平台 0.4.50 开发版

来源:互联网 发布:网易闪电邮mac版 编辑:程序博客网 时间:2024/04/30 16:01

Hawk 搜索引擎平台 0.4.50 开发版

Hawk-0.4.50 screenshots Hawk 搜索引擎平台是面向中小型网站,可以定制的垂直搜索引擎平台。本搜索引擎平台目标是方便用户搭建站内搜索、某个领域的垂直搜索、以及检索个人文档以及自己关注的网站信息的桌面搜索等应用领域。它改造自Lucene,Hadoop和Nutch系统,是纯Java的搜索平台软件,可以运行于Windows及Linux等平台,具备基本的抓取、索引和检索功能,本搜索引擎将免费提供,欢迎大家测试和使用,谢谢! Hawk 搜索引擎平台技术特点简介
  • 改造Hadoop中MapReduce和JobTracker,TaskTracker的结构,以实现可以在Windows/Linux跨平台执行job,并将Map和Reduce分离以实现可以独立执行Map或者Reduce的任务,减少重复的数据处理。Map和Reduce分别代之Processor和Combiner两个独立的Task。以上改造为实现将来更轻量级的分布式计算做准备,而无需像Hadoop一样需建立庞大的cluster集群来进行分布式存储和计算。
  • 改造Nutch结构,改造索引和segment存储格式及内容,简化部分处理流程,并把改造后的Hadoop系统与之整合。为支持单机千万级的索引量重新设计,同时为实现将来软件模块化做准备,如OSGI或更轻量级架构。
  • 全新的管理界面的设计,以与Windows相似的操作界面呈现,并支持国际化语言,目前支持英文和中文界面。
  • 支持自然语言语法分析及语义识别。网页正文智能识别和提取,及新词自动分析和提取功能,持续改进中。
© 2008 Javen-Studio http://javenstudio.org 咖啡小屋  
原创粉丝点击