Effective keyword-based Selection of Relational Databases(未完成)

来源:互联网 发布:ubuntu 16.04 dash 编辑:程序博客网 时间:2024/05/16 07:29

第一篇论文小结,估计只能以翻译为主了。

 

作者:Bei Yu、Guoliang Li、Karen Sollins、Anthony K.H. Tung

发表会议:sigmod 08

 

一、简介

      基于关键词的关系数据库信息检索成为一个热点技术,结合了数据库技术和信息检索(IR)。用户不需了解数据库的结构和SQL等数据库操纵语言,像使用搜索引擎一样,只需要输入关键字的信息,就能查询到数据库里的信息。已有的基于关键词的数据库检索系统有:DBXplorer、Discover、Banks等。

      随着p2p网络和面向服务的体系结构的发展,将这一技术推广到分布式数据库成为一个新的研究热点。最简单的方法:将请求发到每个数据节点,然后各个节点上使用已有的基于关键词的数据库检索技术进行查询,再将查询结果返回到某中央处理节点上,然后把结果返回给用户。这种方法对于网络传输压力大,而且浪费了数据节点的资源。因为并不是每个数据库里,都能查到有效的信息。

     本论文的贡献:

   1、每个数据库生成summary,存储一些关键信息。

   2、根据summary,提出了一种目标数据库选择算法。

   3、关键词技术在分布式数据库的第一次研究。

 

 

二、核心算法

 1、关键词关系矩阵(KRM:keyword relationship matrix)

   m是关键词的个数(元组包含有的), n是元组的总个数

 

  a、矩阵D(m*n):

     D = (dij)m*n ,表示keyword是否在tuple中出现,1:出现,0:不出现。

 

  b、矩阵T(n*n)

     T = (tij)n*n ,表示tuple间是否有关系,也就是外键连接关系,1:有,0:无。

 

  c、矩阵R(m*m)

      (公式无法编辑,图也不能上传。哎,等今后再贴图。)

         表示的是关键词ki和kj的一些关系:比如在各种distance下,ki和kj能够join起来的个数。等等。

  

2、KRM的计算

 

3、用SQL实现上述算法

    还没完全看懂,暂且留空。

 

4、数据库选择

    score(DB,Q)=sigma score(Ti, Q)。

    一个DB里,会返回多个结果,计算其分值和作为这个DB的得分。