搜索引擎学习

来源:互联网 发布:陕西师大网络登录平台 编辑:程序博客网 时间:2024/04/30 06:55

    1、 搜索引擎简介

   搜索引擎是当前最流行的信息检索技术。 实现过程一般是通过一个机器人程序在INTERNET上不断地爬行, 机器人对所抓取到的网页内容进行分析, 取出机器人认为可能对检索请求有价值的信息, 并把这些信息放到本地的一个专门的数据库中。 当用户在一个搜索引擎站点检索信息时, 就是在查找该搜索引擎的数据库, 用户通过数据库中保存的URL信息找到相应的站点和资源

    搜索引擎根据用户的查询请求, 按照一定算法从索引数据库中查找信息返回给用户。 为了保证用户查找信息的精度和新鲜度, 搜索引擎需要建立并维护一个庞大的索引数据库。 一般的搜索引擎由网络机器人程序、 索引与搜索程序、 索引数据库的等部分组成。

   a、 网络机器人: 网络机器人也称为“网络支柱(Spider),是一个功能相当强大的Web扫描程序, 可以在扫描Web页面的同时检索其中的超链接并加入扫描队列等待以后扫描。 因为Web中广泛使用超链接, 因而一个Spider程序理论上可以访问所有站点上的Web页面”

  b、  索引与搜索:  网络机器人将便利得到的压面存放在临时数据库中, 为了提高检索效率, 需要建立专门的数据库和索引, 按照特定格式存放。 用户输入搜索条件后搜索程序将通过索引数据库进行检索, 再把复合要求的数据按照的策略进行分级排列并且返回给用户

 c、 Web服务器: 客户一般通过浏览器进行查询, 因而需要系统提供Web服务器与索引数据库进行链接。 客户在浏览器中输入查询条件, Web服务器接收到的客户的查询请求后, 在索引数据库汇总进行查询、排列后, 返回给客户端。

2、 搜索引擎需要遵循的规则

       如何吧对用户最有价值的信息以优先次序返回给用户, 是搜索引擎需要解决的一个关键问题。 对于这个问题, 不同的搜索引擎采用了不同的解决方案。 例如google采用的是PageRank(网页评级)技术对所有抓取的网页质量进行分析, 把评级较高的网页的URL信息以优先的次序返回到用户界面上。 百度采用的则是“超链分析”技术来进行网页质量的评定。

     显然, 对网页进行网页评级智能提高搜索引擎的精确指标, 对提高相关度却并没有多大的帮助。 与网页评级一样, 搜索引擎提高相关度指标也有一系列复杂的规则。 不同的搜索引擎有不同的相关度计算方法, 通常要考虑所分析文档的许多方面。 下面列出了相关度计算的几种最基本的规则

  a、 根据所查关键字在文章中出现的次数。 次数越多, 认为与所查关键字相关程度越高。

 b、 关键字出现在文章中的位置的重要程度。 例如关键字出现在题目或标题中要比出现在正文中的相关程度要高

  c、 根据关键字在文档中出现的位置至文档其实位置的距离。 与其实位置距离越小, 认为与所查关键字相关程度越高。

 

3、 搜索引擎的技术指标

    不同的网页所面向的对象可能不同, 并且面向队友有日渐垂直细化的趋势, 因而不太容易横向比较其搜索效果的优劣。 但每一种搜索引擎都有一些主要的技术指标。 这些技术指标很大程度上决定了搜索引擎的评价指标。 以下是这些主要指标的简要说明

   a、 召回率: 一次搜索结果中复合用户要求的数目与用户查询相关信息的总数之比。

  b、  准确率:  一次搜索结果中复合用户要求的数目与盖茨搜索结果总数之比

  c、  相关度:  用户查询与搜索结果之间相似度的一种度量

  d、  精确度: 多搜索结果的排序分级能力和对应垃圾我那个也的抗干扰能力。

 

4、 搜索引擎存在的缺点和发展趋势

   各种搜索引擎技术的改进和优化, 都直接反映到搜索结果的排序上。 许多搜索引擎都在进一步研究新的排序方法, 来提升客户的满意度。 目前的搜索引擎排序算法上还存在两大缺点, 先简介如下:

  a、  没有真正解决相关性: 相关性是指搜索词和页面的相关程度。 目前的搜索引擎无法从语意和文档整体内容的角度来判别该文档与所查关键字的先关程度, 仅仅通过链接、 字体、位置等表面特征布恩那个真正判断搜索词和文章的相关性。 更好的办法在于增加语意理解, 例如主题词和关键词的摄取, 从语意上分析, 得出搜索词和网页的相关程度, 从而返回对用户更有价值的搜索结果。

 b、 搜索结果的单一比。 在搜索引擎上, 目前任何人搜索同一个关键字的结果都是一样。 这样的搜索结果明显无法满足不同需求的用户。 要解决这一问题, 需要返回给用户给细腻光滑的搜索结果。 最理想的搜索结果应该是针对每个用户, 排序结果直接和索索习惯及意愿有关。

   ————————————————未来发展趋势分析——————————

    有必要引入人工之恩那个技术, 模拟人的语言思维, 从语意上和文章的整体意蕴上分析网页和关键字的相关度, 从而真正就诶觉搜索结果与检索要求的相关性; 特别要针对每个用户, 建立起相关的背景档案, 并且在此基础上收集并分析用户的搜索习惯和意愿。 并据此给出用户最有价值的搜索结果排序,即最终实现完全个性化搜索....