论文阅读笔记3

来源:互联网 发布:网络问政先进经验 编辑:程序博客网 时间:2024/06/06 00:07

文献名称:Predicting QoS Values via Multi-dimensional QoS Data for Web Service Recommendations
作者信息:You Ma,这个作者属于跨领域发的论文比较多,各种会议都有发文章,比较杂。
发表日期:2015,6
发表期刊/会议:ICWS会议,是IEEE服务计算委员会发起的世界上服务计算领域规模最大、水平最高好的系列国际学术会议,后来扩展到云计算和大数据等领域。其中,ICWS和SCC是目前服务计算邻域的顶级国际学术会议。
被引量:6

主要内容:这篇文章主要讲了如何利用多个维度的QoS数据进行预测和推荐。由于服务质量受一系列的因素的影响,包括响应时间、吞吐量、目标用户的位置等,因此只用一个维度的数据来进行预测是不够准确的,作者提出将多个维度的数据综合起来考虑,并引入张量的概念,通过张量分解的方法和张量优化重建的方法进行预测。为了证明方法的有效性,本文采取了两个数据集,一个是WSdream传统数据集,另一个是已有的出租车的数据集。通过实验,我们的方法比传统方法有很大的提升。
首先作者介绍了什么是高维的服务质量数据,如图1所示,展示了一个五维的QoS数据,横坐标是QoS属性,纵坐标是位置信息,每个grid是一个三阶的张量,包括服务id、用户id和时间序列。这样一个维度的QoS数据要如何表示呢?作者采用的高阶张量的方法表示。
高维QoS数据
图1 高维的QoS数据
然后解释为什么要用张量来表示高阶的QoS数据,并介绍如何采用张量分解的方法来预测,同时提出了一个改进的优化分解算法来还原原始张量。目标函数如下:
这里写图片描述
目的是让损失函数最小,就能获得最优的分解结果。后面的部分是归一化项,防止函数过拟合。基于这个损失函数,作者提出了一个优化算法iRPROP+方法,不是采用传统的梯度下降的算法,克服了梯度下降算法的缺点,具有两点优势:1)用不同的迭代步长计算不同的变量,2)迭代步长自适应每个变量的迭代计算,以保证快速收敛。
分解完成之后就可以采用以下公式进行预测:
这里写图片描述
实验部分,采用了两个数据集来验证效果,一个是传统的数据集wsdream,包含4532 web services*142users*64time intervals,是由作者zhang zibin在论文中提供的公开数据集,是公认的测试数据集,大部分学者的论文大都是采用这个数据集来做实验。第二个实验数据集是出租车数据,这个数据集是第一次出现。重点介绍了这个数据集的由来和如何用这个数据集进行实验。
这个数据集包含了1亿条出租车记录,包括出租车id、经纬度、出租车速度、驾驶方向、载乘客与否、样本时间等,作者抽取了一个星期的时间来做实验。作者把北京三环以内的区域划分为3600个grid,每个grid是240m*240m。
这里写图片描述
图2 北京三环内地区划分图
如图2所示,每个grid我们统计两种信息,有多少人叫车和有多少人下车,可以用作为出租车推荐系统的数据。 然后作者讲述如何利用这些数据进行张量建模。第一个数据集的大小是142*4532*64*2,第二个数据集的大小是3600*144*7*2。
实验结果如图3所示,作者把传统的基于时间的预测和矩阵分解的方法与自己的方法进行对比,结果证明作者的方法比这两种方法寓有很大的改善。因为之前的预测方法都是基于一个QoS属性,所以准确率可能不如作者的提出的方法高。由此可以解释,作者的方法确实提供了一个新颖的思路。
这里写图片描述
图3 准确率对比实验结果图

阅读心得:张量分解的方法是很久之前就已经有学者提出来的,不过梯度下降的方法遇到了瓶颈导致推行不下去,作者提出的方法和思路都很新颖。首先才用了一种新的优化求解的算法进行张量分解,然后利用了一个全新的数据集来验证方法的可行性,在一定程度上来说,给读者耳目一新的感觉。因为数据集1是读者特别熟悉的数据集,几乎所有的论文都采用该作者提供的数据集来做实验。所以当看到出租车的数据集时,难免会多看几眼,想要了解它。该作者很聪明,在这篇文章上可取的地方有很多,不仅思路新,文章的措辞也是非常准确到位,没有采用老掉牙中式词汇,而是地道的美式表达,很令人佩服。这篇文章给了我很多灵感,我们可以根据已有的数据来综合预测QoS,取代传统的每次仅预测一个QoS属性,这样一来可以获取QoS更多的潜在特征,从而预测的更加准确,并且还能提高效率。不过很好奇的一点,作者这么大规模的张量在运算过程种有没有遇到运行不起来的问题,因为我之前采用张量分解的方法来预测,就遇到过这个问题,由于数据量太大,运算特别卡。作者也没有详细阐述自己的算法的时间复杂度和具体的预测一次所花费的时间,因此这个也是在接下来的过程种要注意的。

原创粉丝点击