基于Lucene引擎的搜索应用程序的实现

来源:互联网 发布:人事软件 编辑:程序博客网 时间:2024/06/14 12:31

1.用户输入关键字进行搜索的时候,输入框会识别用户的输入,并进行联想搜索相关词,自动补齐用户的输入,并让用户进行选择完整的输入内容,当用户选择其中之一的完整关键词,点击搜索,即可将关键词提交到服务器端中。

2.当用户选择输入关键字进行搜索的时候,会得到浏览器的相关反馈,服务器会返回一系列的信息,其中包括搜索花费的时间,大量搜索结果采用相关算法的排序,以及大量信息的相关分页,其中最重要的排在最前面。

3.对用户输入的关键字进行纠错,当用户输入有误的关键字,经过一系列相关的处理,浏览器会自动提示,并将正确的关键字返回,提示用户是否进行修改,当用户进行修改后会重新进行搜索,得到相关的搜索结果。

4.对于专业化的数据的获取,采用heritrix爬虫进行专业化的数据获取。用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改(可以通过配置进行过滤)。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。

5.采用DWR(Direct Web Remoting)用于改善web页面与Java类交互的远程服务器端Ajax开源框架,帮助开发人员开发包含AJAX技术的网站。它可以允许在浏览器里的代码使用运行在WEB服务器上的JAVA函数,就像它就在浏览器里一样

6.用户可以在完成的搜索引擎上,搜索到所需要的数码产品信息,这些信息来源于自动抓取的特定网站,并能根据自己的兴趣,从搜索结果中选择详细信息页面进行浏览,

。数码产品的详细页面中包括了数码产品的相关参数和价格,让用户获取更加详细,且具有体系化的信息结构。

7.爬取知名数码产品网站中的信息,通过HTMLParser提取网站信息,以及如果需要模拟登陆,就采用模拟登陆的方式,网络打码实现图片验证码的识别,ip访问频率限制防止恶意用户的恶意多次访问导致服务器资源消耗。

8.网络爬虫抓取信息的时候,采用user-agent进行切换功能。 User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

9.设置多台服务器,多台服务器主要是为了,打造一个分布式的爬虫数据,一个分布式的搜索引擎内部结构,来达到搜索结果的快速反馈。

10.搜索结果栏的左侧包括信息发布时间和信息来源网站的名字,用户可以点击左侧栏中的信息发布时间或者信息来源网站的名字,实现搜索结果的从新排序,来达到搜索结果更加精准的展示,可以点击隐藏左侧栏来隐藏左侧栏中信息发布时间和信息来源网站的隐藏。

11.搜索结果右侧栏包括热门搜索和我的搜索,热门搜索中包括了网上其他用户最近的搜索,我的搜索中包括了用户的历史搜索记录。

原创粉丝点击