A survey and Experimental Comparison of Distributed SPARQL Engines for Very Large RDF Data

来源：互联网发布：医药行业ims数据分析编辑：程序博客网时间：2024/05/19 22:48

发表于VLDB2017上的一篇文章，对当前主流的分布式SPARQL查询处理引擎做了大量实验进行对比。

原文链接：http://www.vldb.org/pvldb/vol10/p2049-abdelaziz.pdf

实验涉及的系统包括：AdPart [46] ,AdPart-NA [46], CliqueSquare [25] ,DREAM [38] ,EAGRE [56] ,gStoreD[45], H-RDF-3X [29] ,H2RDF+ [41], HadoopRDF [30], Partout [36] ,PigSparql [14] ,S2RDF [15] ,S2X [51],Sedge[57], Sempala[50], SHAPE [32] ,SHARD [47] TriAD [48] ,TriAD-SG [48], Trinity.RDF [33] ,WARP [28] .

实验使用的数据集包括LUBM，Watdiv和Bio2RDF，评估的主要指标为启动代价和查询性能。

首先对背景做一个简单的介绍，RDF是一种知识表示的模型，是知识图谱的一种表现形式，基本的数据单元为三元组，表现形式为<主体,谓词,客体>，例如<苹果,类型,水果>。RDF图是RDF三元组的一种图表现形式，将主体和客体当作顶点，谓词当作边构建一个大型图。而SPARQL是一种结构化的被用来检索RDF数据的查询语言。包括一系列三元组模式和约束条件。由于RDF结构的灵活性越来越多的知识被表示成RDF格式，例如DBpedia,YAGO和FreeBase等。一个简单的RDF图和SPARQL查询图如下所示：

阅读全文

0 0