数据库开发（18）信息检索

来源：互联网发布：ios9.3.5越狱优化编辑：程序博客网时间：2024/06/13 18:16

1、信息检索：指的是非结构化文本数据的查询。

2、基于用户输入来定位相关文档构成了信息检索的过程，用户输入包括关键字、示例文档等。用户预期的文档通常用关键字集合来描述。

信息检索系统一般允许使用由关键字和逻辑连接词（and，or，not）组成的查询表达式。

在全文检索中，每份文档中的所有词都当作关键字。

我们用术语来表示文档中的词。一份文档对一个术语的相关性称作术语频率（TF）。一个查询Q可能包含多个关键字。

3、基于相似性的检索：

一个将文档视作n维空间中的点和向量的模型称作向量空间模型。

4、流行度排名：

基本思想是找到流行的页面，把它们的位置排在同样包含特定关键字的其他页面之前。

一种方法是找出一个页面被访问的次数。另一种是使用指向一个页面的超链接来度量其流行度。

书签文件通常是私下进行存储的，是不能在Web上得到的。

一种替代方法是将流行度与站点相关联，而不是和页面相关联。一个站点的所有页面获得该站点的流行度。

5、HITS算法：

首先找到包含查询关键字的页面，利用走向这些有关页面集合计算流行度度量。

一个链接中心是一个存储了到许多有关页面的链接的页面，它可能本身并不包含实际的主体信息，而是指向包含实际信息的页面。

6、搜索引擎作弊：

指的是尝试建立Web页面或页面集合，其被设计用来使得站点对于某些查询得到一个高的相关度排名，即使这些站点实际上并不是流行的站点。

作弊者可以建立一个包含指向关于某个主题的好的权威页的链接的Web页面，从而使该页面得到一个高的链接中心分数。

7、支持基于概念的查询的系统必须分析每份文档，消除文档中每个词的歧义，并用其所代表的概念替换它。

本体是反映概念间联系的层次结构，最常用的是is-a联系。

语义网络：包含一组能够以基于语言或含义的方式将Web上的数据连接起来的工具、标准及语言。

8、文档的索引：

包含指定关键字的稳定可以通过使用倒排索引来高效定位。

每个关键字都可能被大量的文档所包含，因此紧凑的表示是减少索引占用空间的关键。当对文档进行相关性排名时，一些相关文档可能排名较低，这就会发生误舍弃。当不相关文档比相关文档排在更前面时会发生误选中。这也取决于查看的文档的多少。

一个好的索引结构将不存在任何误丢弃，但可以有一些误选中。一个可选方法是将其作为查全率的一个函数进行度量。

9、网络爬虫：

是定位和收集Web上的信息的程序。它们沿着已知文档中存在的超文本链接递归地找到其他文档，依据URL链接抓取Web上的页面。实际上，所有的搜索引擎都只是搜索部分而不是全部Web，否则耗时很长。爬虫抓取过程中通常有许多进程，在多台主机上运行。数据库存储了需要搜索的一个链接（或站点）集合，将该集合中的链接交给每个爬虫进程。

10、将搜索到的网页加到正用于查询的索引中并不是一个好主意，因为这样做将需要索引上的并发控制，从而影响查询和更新的性能。替代的办法是，使用索引的一个副本回答查询，而用新搜索到的网页对另一个副本进行更新。周期性地，这两个副本互换，对旧的副本就行更新，而新的副本用于查询。

11、深度Web爬虫：

通过猜测在检索界面中输入什么样的术语是合理的，如何选择菜单项等方式来抽取这样的信息。

12、查询结果的多样化：

搜索引擎不仅能返回一个与查询有关的Web页面排名列表，同时还能返回相关的图片及视频结果。从Web页面中获取的结果需要归纳成为查询结果中的小片段。

13、信息抽取：

将信息从文本形式转换为更结构化的形式。在抽取出的信息的一小部分往往包含错误。

问答系统：试图对用户提出好的问题提供直接的答案。

14、查询结构化数据：
结构化数据主要以关系或XML形式表示。

在信息检索系统中，不需要将文档保存到层次结构中的单独位置上。图算法的一份文档可能出现在DAG（有向无环图）中的一个单独的位置上，但可以通过不同的路径访问。一个目录就是一个分类DAG结构。

0 0