#Paper Reading# Link Prediction by De-anonymization: How We Won the Kaggle Social Network Challenge
来源:互联网 发布:网络作家真实收入 编辑:程序博客网 时间:2024/06/06 08:35
论文题目:Link Prediction by De-anonymization: How We Won the Kaggle Social Network Challenge
论文地址:http://arxiv.org/abs/1102.4374
论文大体内容:
作者使用去匿名算法,voting策略,machine learning的方法赢得了kaggle的一场Flickr链接预测的比赛。
1、kaggle上的比赛[1]是这样的:给定的训练集中有7,237,983条边(Flickr上用户的互相关注,已匿名处理),然后给8,960个边,让你判断这条边的发生可能性(即是否可能存在边的两个顶点(两个用户)互相关注)。
2、作者自己另外爬取了两个时间段的Flickr数据,分别是mid-December 2010和mid-January 2011,经处理后形成了一个有7,041,554条边的social network。并且作者比较了自己爬取的social network以及kaggle上的训练集组成的social network,发现彼此间的余弦相似度有95.6%,说明两个social network相似度非常高,这也使得后面的方法可以成功。
3、作者的去匿名的算法(de-anonymization algorithm,DA算法)来源于另一篇论文[2],步骤主要有seed identification和propagation。由于data的结点数太大,所以作者先均匀随机从两个social network中选取小部分的结点,而且发现随机抽样的可信度特别高,top30结点中有27个(90%)相同。
4、使用kaggle上的test set进行seed identification和propagation后,发现DA算法能否覆盖test set中79.7%的数据,去掉map后有多个选项以及一些不太好的结果,最后能够以98.7%的准确率覆盖57.0%的test set edge内容。
5、作者希望优化seed identification的结果,而其中涉及到图匹配的问题(inexact graph matching),这是一个NPC问题,所以使用了模拟退火(Simulated annealing)的方法。
6、由于DA算法并不能覆盖全部test set数据,所以作者提出一种voting的策略,思想是这样的,在DA中,存在一个test数据点,对应多个作者爬取的flickr数据点(候选去匿名的点)。在这种一对多的情况中,如果a的候选点C(a)与b的候选点C(b)都存在edge,也就是有|C(a)|*|C(b)|种edge存在,那么a,b就可以voting确定是存在edge的,同理如果都不存在edge,那么a,b也voting出不存在edge。这种处理后,能在DA的基础上再覆盖test set的18.7%的edge内容,准确率是98.1%。
7、剩下的test set不覆盖内容,作者使用了Machine Learning的方法,使用包括Adamic/Adar, Jaccard, localized random walks, node degrees等在内的25种feature跑了一个random forest classifier,覆盖了剩余的24.3%的test set edge数据,AUC[2](用于评价二元分类器的表现,范围[0,1],值越大越好)为0.881。
8、最后将上面三种方法合并,结果是AUC有0.981,从而赢得了kaggle这场比赛的第一名。
9、思考,作者使用DA的方法,不是传统的做法,感觉是另辟蹊径,有点cheat的嫌疑。但这点创新也是很好的,毕竟一般不会有人去想match真实的数据。所以链接预测可以不再仅根据图本身来搞,也可以利用网络上大量的公开的信息,毕竟,这是一个大数据的时代!
参考资料:
[1]、https://www.kaggle.com/c/socialNetwork
[2]、http://arxiv.org/pdf/0903.3276.pdf
[3]、http://alexkong.net/2013/06/introduction-to-auc-and-roc/
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
论文地址:http://arxiv.org/abs/1102.4374
论文大体内容:
作者使用去匿名算法,voting策略,machine learning的方法赢得了kaggle的一场Flickr链接预测的比赛。
1、kaggle上的比赛[1]是这样的:给定的训练集中有7,237,983条边(Flickr上用户的互相关注,已匿名处理),然后给8,960个边,让你判断这条边的发生可能性(即是否可能存在边的两个顶点(两个用户)互相关注)。
2、作者自己另外爬取了两个时间段的Flickr数据,分别是mid-December 2010和mid-January 2011,经处理后形成了一个有7,041,554条边的social network。并且作者比较了自己爬取的social network以及kaggle上的训练集组成的social network,发现彼此间的余弦相似度有95.6%,说明两个social network相似度非常高,这也使得后面的方法可以成功。
3、作者的去匿名的算法(de-anonymization algorithm,DA算法)来源于另一篇论文[2],步骤主要有seed identification和propagation。由于data的结点数太大,所以作者先均匀随机从两个social network中选取小部分的结点,而且发现随机抽样的可信度特别高,top30结点中有27个(90%)相同。
4、使用kaggle上的test set进行seed identification和propagation后,发现DA算法能否覆盖test set中79.7%的数据,去掉map后有多个选项以及一些不太好的结果,最后能够以98.7%的准确率覆盖57.0%的test set edge内容。
5、作者希望优化seed identification的结果,而其中涉及到图匹配的问题(inexact graph matching),这是一个NPC问题,所以使用了模拟退火(Simulated annealing)的方法。
6、由于DA算法并不能覆盖全部test set数据,所以作者提出一种voting的策略,思想是这样的,在DA中,存在一个test数据点,对应多个作者爬取的flickr数据点(候选去匿名的点)。在这种一对多的情况中,如果a的候选点C(a)与b的候选点C(b)都存在edge,也就是有|C(a)|*|C(b)|种edge存在,那么a,b就可以voting确定是存在edge的,同理如果都不存在edge,那么a,b也voting出不存在edge。这种处理后,能在DA的基础上再覆盖test set的18.7%的edge内容,准确率是98.1%。
7、剩下的test set不覆盖内容,作者使用了Machine Learning的方法,使用包括Adamic/Adar, Jaccard, localized random walks, node degrees等在内的25种feature跑了一个random forest classifier,覆盖了剩余的24.3%的test set edge数据,AUC[2](用于评价二元分类器的表现,范围[0,1],值越大越好)为0.881。
8、最后将上面三种方法合并,结果是AUC有0.981,从而赢得了kaggle这场比赛的第一名。
9、思考,作者使用DA的方法,不是传统的做法,感觉是另辟蹊径,有点cheat的嫌疑。但这点创新也是很好的,毕竟一般不会有人去想match真实的数据。所以链接预测可以不再仅根据图本身来搞,也可以利用网络上大量的公开的信息,毕竟,这是一个大数据的时代!
参考资料:
[1]、https://www.kaggle.com/c/socialNetwork
[2]、http://arxiv.org/pdf/0903.3276.pdf
[3]、http://alexkong.net/2013/06/introduction-to-auc-and-roc/
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
0 0
- #Paper Reading# Link Prediction by De-anonymization: How We Won the Kaggle Social Network Challenge
- #Paper Reading# The Link Prediction Problem for Social Networks
- 《The Social Network》
- HDU4039 The Social Network
- The-social-network
- hdu 4039 The Social Network
- 【BFS+hash】The Social Network
- HDU4039 The Social Network(bfs)
- Kaggle’s WordPress Challenge: The Like Graph
- How Open Is the Future?: Economic, Social & Cultural Scenarios Inspired by Free & Open-Source Softwa
- hdu3849 By Recognizing These Guys, We Find Social Networks Useful
- [Paper Reading] The Implementation of Lua 5.0
- hdu 4039 暴力 The social network
- HDU 4039 The Social Network bfs
- #Paper Reading# Robust Word-Network Topic Model for Short Texts
- Paper Reading
- Paper Reading
- Paper-Reading
- Error assembling WAR: webxml attribute is required (or pre-existing WEB-INF/web.xml
- 第一次使用Android Studio时你应该知道的一切配置
- 2015-10-12 【项目3 - 括号的匹配】
- 第二周-项目2 - 程序的多文件组织
- 第六周项目1--建立顺序栈算法库
- #Paper Reading# Link Prediction by De-anonymization: How We Won the Kaggle Social Network Challenge
- c++容器概述
- Mysql使用相关问题(持续更新)
- windows下各调试器条件断点实例
- TextureView SurfaceView和MediaPlayer的视频播放
- 第6周 项目3 - 括号的匹配
- 欢迎使用CSDN-markdown编辑器
- 第七周 项目1 - 建立顺序环形队列算法库
- Javascript闭包——懂不懂由你,反正我是懂了