A survey and Experimental Comparison of Distributed SPARQL Engines for Very Large RDF Data

来源:互联网 发布:医药行业ims数据分析 编辑:程序博客网 时间:2024/05/19 22:48

发表于VLDB2017上的一篇文章,对当前主流的分布式SPARQL查询处理引擎做了大量实验进行对比。

原文链接:http://www.vldb.org/pvldb/vol10/p2049-abdelaziz.pdf

实验涉及的系统包括:AdPart [46] ,AdPart-NA [46], CliqueSquare [25] ,DREAM [38] ,EAGRE [56] ,gStoreD[45], H-RDF-3X [29] ,H2RDF+ [41], HadoopRDF [30], Partout [36] ,PigSparql [14] ,S2RDF [15] ,S2X [51],Sedge[57], Sempala[50], SHAPE [32] ,SHARD [47] TriAD [48] ,TriAD-SG [48], Trinity.RDF [33] ,WARP [28] .

实验使用的数据集包括LUBM,Watdiv和Bio2RDF,评估的主要指标为启动代价和查询性能。

首先对背景做一个简单的介绍,RDF是一种知识表示的模型,是知识图谱的一种表现形式,基本的数据单元为三元组,表现形式为<主体,谓词,客体>,例如<苹果,类型,水果>。RDF图是RDF三元组的一种图表现形式,将主体和客体当作顶点,谓词当作边构建一个大型图。而SPARQL是一种结构化的被用来检索RDF数据的查询语言。包括一系列三元组模式和约束条件。由于RDF结构的灵活性越来越多的知识被表示成RDF格式,例如DBpedia,YAGO和FreeBase等。一个简单的RDF图和SPARQL查询图如下所示:




阅读全文
0 0
原创粉丝点击