Kdd Cup 2013 track1总结
来源:互联网 发布:通过交换数据位运算 编辑:程序博客网 时间:2024/04/30 13:34
比赛地址:http://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-challenge
大概也折腾了一个多月吧,从最开始的兴奋到后面的折腾不动,失望,最后来总结一下。
开始阶段完全小白,最好入手的办法用着basicline的代码,添加一两个新的特征,最后就折腾一下模型,这里说一下自己用的特征。
1. 字符串距离
首先在paperauthor里面是又噪音的,同一个(authorid,paperid)可能出现多次,我做的是把同一个(authorid,paperid)对的多个name和多个affiliation合并起来。例如
aid,pid,name1,aff1
aid,pid,name2,aff2
aid,pid,name3,aff3
得到aid,pid,name1##name2##name3,aff1##aff2##aff3,“##”为分隔符。由paperauthor里可以知道论文的name和affiliation,另一个方面我们可以根据(authorid,paperid)对中的authorid到author表里找到对应的name和affiliation,假设当前的作者论文对是(aid,pid),从paperauthor里得到的name串和affiliation串分别为name1##name2##name3,aff1##aff2##aff3,根据aid从author表找到的name和affliction分别为name-a,affliction-a,这样我们可以算字符串的距离。
算法有两种:
(1) name-a 与,name1##name2##name3的距离,同理affliction-a和,aff1##aff2##aff3的距离
(2) name-a分别与name1,name2,name3的距离,然后取平均,同理affliction-a和,aff1,aff2,aff3的平均距离
距离的度量:编辑距离(levenshtein distance),最长公共子序列(LCS),最长公共子串(LSS)。
这样我们就得到关于作者name和作者affiliation的字符串相似度的多个特征。
2. coauthor信息
很多论文都有多个作者,根据paperauthor统计每一个作者的top 10(当然可以是top 20或者其他top K)的coauthor,对于一个作者论文对(aid,pid),计算ID为pid的论文的作者有没有出现ID为aid的作者的top 10 coauthor中,可以简单计算top 10 coauthor出现的个数,还可以算一个得分,每个出现pid论文的top 10 coauthor可以根据他们跟aid作者的合作次数算一个分数,然后累加,我简单地把coauthor和当前aid作者和合作次数作为这个coauthor出现的得分。
3. journalid,conferenceid,year
把paper表的journalid,conferenceid和year也作为特征加进去,我的理解journalid和conferenceid可以看做是论文的一个类标签(label),年份year也可以看做是一个label。
4. keyword信息
作者A写过的论文的keyword构成一个集合X,一篇论文B的keyword构成一个集合Y,这里说的keyword是论文的title和keyword分词后得到的单词,对于一个作者论文对(A,B)计算他们的keyword的交集:X∩Y。
每个单词可以类似tf-idf的分数,最后把属于X∩Y的单词的分数累加起来作为一维新的特征。
5.其他
后面做了一下model的ensemble。把knn,svm,sgd分类器,rf随机森林,gbdt,logistic regression,adaboost的结果合并,还是提升不了(菜=。=)
最后只用了rf和gbdt做了加权平均,效果有一点点提高。
试了其他很多方法特征,topic model的主题分布,聚类等等,也没起什么效果,估计是使用的方式不恰当=。=
总结:
publicboard的成绩最后还是死活超不过0.98,卡在0.9788,无比地伤心。大家基本都是用分类的方法。真心感觉这个比赛会抽特征很重要,好的特征才有好的结果。到后面没有进步的原因就是想不出好的特征。
- Kdd Cup 2013 track1总结
- Kdd Cup 2013 总结2
- KDD CUP
- KDD Cup竞赛介绍
- KDD Cup竞赛介绍
- KDD Cup竞赛介绍
- 关于Kdd cup
- 【分享】KDD Cup 2011(KDD Cup 2011比赛数据)
- KDD Cup 2011:音乐推荐
- KDD CUP 99数据集
- KDD Cup 2011:音乐推荐
- 2012届KDD Cup 2011届KDD Cup 2009届KDD Cup
- KDD CUP 99 数据集背景知识
- 广告推荐初探---基于KDD Cup 2012
- kdd cup 99测试集属性含义
- 1997-2007,KDD CUP的二十年
- KDD-2013 Tutorial
- KDD-2013概述
- 使用python解析json文件
- android百度地图:主界面&&BMapManager
- MySQL存储引擎
- chat
- qcow2转lvm
- Kdd Cup 2013 track1总结
- uboot 分析之一 start.S
- jQuery 选择器
- Java WEB中文乱码问题
- poj 跳格问题
- 设置树的打开关闭图标以及字体的大小颜色样式
- 【xtku】笔者支招:四个方法搞定ADSL拨号711错误
- 随笔(@)
- 自定义contentProvider