电子商务复习笔记四：搜索引擎

来源：互联网发布：尚品宅配圆方软件下载编辑：程序博客网时间：2024/05/21 18:40

复习要点：搜索引擎定义、分类、工作原理与组成部分

搜索引擎

定义
搜索引擎是指根据一定的策略、运用特定的计算机程序收集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户，是为用户提供检索服务的系统。

搜索引擎分类

全文搜索引擎
目录索引
元搜索引擎
垂直搜索引擎

搜索引擎工作原理

抓取网页
每个独立的搜索引擎都有自己的网页抓取程序（spider，蜘蛛程序）。Spider顺着网页中的超链接，连续地抓取网页，被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。
处理网页
搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引文件，其他还包括去除重复网页、分词（中文）、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
提供检索服务
用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

搜索引擎组成部分

搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。

搜索器
在互联网中漫游，发现和搜索信息。
索引器
理解搜索器所搜索到的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。
检索器
根据用户的查询在索引库中快速检索文档，进行相关度评价，对将要输出的结果排序，并能按用户的查询需求合理反馈信息。
用户接口
作用是接纳用户查询。显示查询结果、提供个性化查询项

搜索引擎的技术发展趋势

提高搜索引擎对用户检索提问的理解
对检索结果进行处理
确定搜索引擎信息搜集范围，提高搜索引擎的针对性
将搜索引擎的技术开发重点放在对检索结果的处理上，提供更优化的检索结果
搜索引擎的分类
专家系统

网络蜘蛛

（这部分好像不要求复习…）

网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

蜘蛛是一种半自动的程序，就象现实当中的蜘蛛在它的Web（蜘蛛网）上旅行一样，蜘蛛程序也按照类似的方式在Web链接织成的网上旅行。蜘蛛程序之所以是半自动的，是因为它总是需要一个初始链接（出发点），但此后的运行情况就要由它自己决定了，蜘蛛程序会扫描起始页面包含的链接，然后访问这些链接指向的页面，再分析和追踪那些页面包含的链接。从理论上看，最终蜘蛛程序会访问到Internet上的几乎每一个页面，因为Internet上几乎每一个页面总是被其他或多或少的页面引用。
许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取时评价网页重要性的主要依据之一是某个网页的链接深度。

在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。

广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。

深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

< meta name=“robots” content=“index, follow”/>

阅读全文

0 0