数据库开发(18)信息检索

来源:互联网 发布:ios9.3.5越狱优化 编辑:程序博客网 时间:2024/06/13 18:16

1、信息检索:指的是非结构化文本数据的查询。

2、基于用户输入来定位相关文档构成了信息检索的过程,用户输入包括关键字、示例文档等。用户预期的文档通常用关键字集合来描述。

信息检索系统一般允许使用由关键字和逻辑连接词(and,or,not)组成的查询表达式。

在全文检索中,每份文档中的所有词都当作关键字。

我们用术语来表示文档中的词。一份文档对一个术语的相关性称作术语频率(TF)。一个查询Q可能包含多个关键字。

3、基于相似性的检索:

一个将文档视作n维空间中的点和向量的模型称作向量空间模型。

4、流行度排名:

基本思想是找到流行的页面,把它们的位置排在同样包含特定关键字的其他页面之前。

一种方法是找出一个页面被访问的次数。另一种是使用指向一个页面的超链接来度量其流行度。

书签文件通常是私下进行存储的,是不能在Web上得到的。

一种替代方法是将流行度与站点相关联,而不是和页面相关联。一个站点的所有页面获得该站点的流行度。

5、HITS算法:

首先找到包含查询关键字的页面,利用走向这些有关页面集合计算流行度度量。

一个链接中心是一个存储了到许多有关页面的链接的页面,它可能本身并不包含实际的主体信息,而是指向包含实际信息的页面。

6、搜索引擎作弊:

指的是尝试建立Web页面或页面集合,其被设计用来使得站点对于某些查询得到一个高的相关度排名,即使这些站点实际上并不是流行的站点。

作弊者可以建立一个包含指向关于某个主题的好的权威页的链接的Web页面,从而使该页面得到一个高的链接中心分数。

7、支持基于概念的查询的系统必须分析每份文档,消除文档中每个词的歧义,并用其所代表的概念替换它。

本体是反映概念间联系的层次结构,最常用的是is-a联系。

语义网络:包含一组能够以基于语言或含义的方式将Web上的数据连接起来的工具、标准及语言。

8、文档的索引:

包含指定关键字的稳定可以通过使用倒排索引来高效定位。

每个关键字都可能被大量的文档所包含,因此紧凑的表示是减少索引占用空间的关键。当对文档进行相关性排名时,一些相关文档可能排名较低,这就会发生误舍弃。当不相关文档比相关文档排在更前面时会发生误选中。这也取决于查看的文档的多少。

一个好的索引结构将不存在任何误丢弃,但可以有一些误选中。一个可选方法是将其作为查全率的一个函数进行度量。

9、网络爬虫:

是定位和收集Web上的信息的程序。它们沿着已知文档中存在的超文本链接递归地找到其他文档,依据URL链接抓取Web上的页面。实际上,所有的搜索引擎都只是搜索部分而不是全部Web,否则耗时很长。爬虫抓取过程中通常有许多进程,在多台主机上运行。数据库存储了需要搜索的一个链接(或站点)集合,将该集合中的链接交给每个爬虫进程。

10、将搜索到的网页加到正用于查询的索引中并不是一个好主意,因为这样做将需要索引上的并发控制,从而影响查询和更新的性能。替代的办法是,使用索引的一个副本回答查询,而用新搜索到的网页对另一个副本进行更新。周期性地,这两个副本互换,对旧的副本就行更新,而新的副本用于查询。

11、深度Web爬虫:

通过猜测在检索界面中输入什么样的术语是合理的,如何选择菜单项等方式来抽取这样的信息。

12、查询结果的多样化:

搜索引擎不仅能返回一个与查询有关的Web页面排名列表,同时还能返回相关的图片及视频结果。从Web页面中获取的结果需要归纳成为查询结果中的小片段。

13、信息抽取:

将信息从文本形式转换为更结构化的形式。在抽取出的信息的一小部分往往包含错误。

问答系统:试图对用户提出好的问题提供直接的答案。

14、查询结构化数据:
结构化数据主要以关系或XML形式表示。

在信息检索系统中,不需要将文档保存到层次结构中的单独位置上。图算法的一份文档可能出现在DAG(有向无环图)中的一个单独的位置上,但可以通过不同的路径访问。一个目录就是一个分类DAG结构。

0 0
原创粉丝点击