数据库开发(18)信息检索
来源:互联网 发布:ios9.3.5越狱优化 编辑:程序博客网 时间:2024/06/13 18:16
1、信息检索:指的是非结构化文本数据的查询。
2、基于用户输入来定位相关文档构成了信息检索的过程,用户输入包括关键字、示例文档等。用户预期的文档通常用关键字集合来描述。
信息检索系统一般允许使用由关键字和逻辑连接词(and,or,not)组成的查询表达式。
在全文检索中,每份文档中的所有词都当作关键字。
我们用术语来表示文档中的词。一份文档对一个术语的相关性称作术语频率(TF)。一个查询Q可能包含多个关键字。
3、基于相似性的检索:
一个将文档视作n维空间中的点和向量的模型称作向量空间模型。
4、流行度排名:
基本思想是找到流行的页面,把它们的位置排在同样包含特定关键字的其他页面之前。
一种方法是找出一个页面被访问的次数。另一种是使用指向一个页面的超链接来度量其流行度。
书签文件通常是私下进行存储的,是不能在Web上得到的。
一种替代方法是将流行度与站点相关联,而不是和页面相关联。一个站点的所有页面获得该站点的流行度。
5、HITS算法:
首先找到包含查询关键字的页面,利用走向这些有关页面集合计算流行度度量。
一个链接中心是一个存储了到许多有关页面的链接的页面,它可能本身并不包含实际的主体信息,而是指向包含实际信息的页面。
6、搜索引擎作弊:
指的是尝试建立Web页面或页面集合,其被设计用来使得站点对于某些查询得到一个高的相关度排名,即使这些站点实际上并不是流行的站点。
作弊者可以建立一个包含指向关于某个主题的好的权威页的链接的Web页面,从而使该页面得到一个高的链接中心分数。
7、支持基于概念的查询的系统必须分析每份文档,消除文档中每个词的歧义,并用其所代表的概念替换它。
本体是反映概念间联系的层次结构,最常用的是is-a联系。
语义网络:包含一组能够以基于语言或含义的方式将Web上的数据连接起来的工具、标准及语言。
8、文档的索引:
包含指定关键字的稳定可以通过使用倒排索引来高效定位。
每个关键字都可能被大量的文档所包含,因此紧凑的表示是减少索引占用空间的关键。当对文档进行相关性排名时,一些相关文档可能排名较低,这就会发生误舍弃。当不相关文档比相关文档排在更前面时会发生误选中。这也取决于查看的文档的多少。
一个好的索引结构将不存在任何误丢弃,但可以有一些误选中。一个可选方法是将其作为查全率的一个函数进行度量。
9、网络爬虫:
是定位和收集Web上的信息的程序。它们沿着已知文档中存在的超文本链接递归地找到其他文档,依据URL链接抓取Web上的页面。实际上,所有的搜索引擎都只是搜索部分而不是全部Web,否则耗时很长。爬虫抓取过程中通常有许多进程,在多台主机上运行。数据库存储了需要搜索的一个链接(或站点)集合,将该集合中的链接交给每个爬虫进程。
10、将搜索到的网页加到正用于查询的索引中并不是一个好主意,因为这样做将需要索引上的并发控制,从而影响查询和更新的性能。替代的办法是,使用索引的一个副本回答查询,而用新搜索到的网页对另一个副本进行更新。周期性地,这两个副本互换,对旧的副本就行更新,而新的副本用于查询。
11、深度Web爬虫:
通过猜测在检索界面中输入什么样的术语是合理的,如何选择菜单项等方式来抽取这样的信息。
12、查询结果的多样化:
搜索引擎不仅能返回一个与查询有关的Web页面排名列表,同时还能返回相关的图片及视频结果。从Web页面中获取的结果需要归纳成为查询结果中的小片段。
13、信息抽取:
将信息从文本形式转换为更结构化的形式。在抽取出的信息的一小部分往往包含错误。
问答系统:试图对用户提出好的问题提供直接的答案。
14、查询结构化数据:
结构化数据主要以关系或XML形式表示。
在信息检索系统中,不需要将文档保存到层次结构中的单独位置上。图算法的一份文档可能出现在DAG(有向无环图)中的一个单独的位置上,但可以通过不同的路径访问。一个目录就是一个分类DAG结构。
- 数据库开发(18)信息检索
- 检索数据库中歌曲信息
- Oracle Database :Oracle11g SQL开发指南学习笔记之(5):从数据库表中检索信息
- Oracle 11g SQL开发指南 学习笔记之从数据库表中检索信息
- Oracle11G-SQL开发指南-2-从数据库表中检索信息
- 信息检索导论(第一章) 布尔检索
- 百度地图开发之【公交信息检索】
- 百度地图开发之公交信息检索
- 信息检索导论(王斌译)
- 信息检索-布尔检索
- 信息检索
- 信息检索
- 信息检索
- 信息检索
- 信息检索
- 百度地图开发(五)之公交信息检索 + 路线规划
- 百度地图开发(五)之公交信息检索 + 路线规划
- 百度地图开发(五)之公交信息检索 + 路线规划
- 复制的教训:Copy to China模式在中国还能走多久?
- 获取 Java VM 中当前运行的所有线程
- 阿里云主机初始化
- AndroidManifest.xml标签属性
- JAVA 将文件夹打成ZIP包
- 数据库开发(18)信息检索
- 如何判断自己是否具有成为一名优秀程序员的潜质
- 黑马程序员—多态
- NGUI控件说明(中文) UIAnchor
- 这种布局搞了我几天,熟C#老兄指导一下
- Struts1 工作流程
- 树:二叉树
- 多系统启动选择菜单删除修复要多随意有多随意(easybcd怎么用)
- 判断某年是否为闰年