电子商务复习笔记四:搜索引擎

来源:互联网 发布:尚品宅配圆方软件下载 编辑:程序博客网 时间:2024/05/21 18:40

复习要点:搜索引擎定义、分类、工作原理与组成部分

搜索引擎

  • 定义
    搜索引擎是指根据一定的策略、运用特定的计算机程序收集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。

搜索引擎分类

  • 全文搜索引擎
  • 目录索引
  • 元搜索引擎
  • 垂直搜索引擎

搜索引擎工作原理

  • 抓取网页
    每个独立的搜索引擎都有自己的网页抓取程序(spider,蜘蛛程序)。Spider顺着网页中的超链接,连续地抓取网页,被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

  • 处理网页
    搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件,其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

  • 提供检索服务
    用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

搜索引擎组成部分

搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。

  • 搜索器
    在互联网中漫游,发现和搜索信息。
  • 索引器
    理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
  • 检索器
    根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。
  • 用户接口
    作用是接纳用户查询。显示查询结果、提供个性化查询项

搜索引擎的技术发展趋势

  1. 提高搜索引擎对用户检索提问的理解
  2. 对检索结果进行处理
  3. 确定搜索引擎信息搜集范围,提高搜索引擎的针对性
  4. 将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检索结果
  5. 搜索引擎的分类
  6. 专家系统

网络蜘蛛

(这部分好像不要求复习…)

网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上旅行一样,蜘蛛程序也按照类似的方式在Web链接织成的网上旅行。蜘蛛程序之所以是半自动的,是因为它总是需要一个初始链接(出发点),但此后的运行情况就要由它自己决定了,蜘蛛程序会扫描起始页面包含的链接,然后访问这些链接指向的页面,再分析和追踪那些页面包含的链接。从理论上看,最终蜘蛛程序会访问到Internet上的几乎每一个页面,因为Internet上几乎每一个页面总是被其他或多或少的页面引用。
许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取时评价网页重要性的主要依据之一是某个网页的链接深度。

在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。

广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

< meta name=“robots” content=“index, follow”/>

原创粉丝点击