腾讯安全部门-大数据挑战赛-learner队伍(进入复赛)
来源:互联网 发布:npt内螺纹软件 编辑:程序博客网 时间:2024/05/22 14:22
赛题描述
鼠标轨迹识别当前广泛运用于多种人机验证产品中,不仅便于用户的理解记忆,而且极大增加了暴力破解难度。但攻击者可通过黑产工具产生类人轨迹批量操作以绕过检测,并在对抗过程中不断升级其伪造数据以持续绕过同样升级的检测技术。我们期望用机器学习算法来提高人机验证中各种机器行为的检出率,其中包括对抗过程中出现的新的攻击手段的检测。
比赛数据
本题目数据来源于某人机验证产品采集的鼠标轨迹,经过脱敏处理,数据分为3部分(数据量分别为3000条,10万,200万)。
一、特征工程
1:
x和y两个一维坐标下,可以得到一组速度和一组加速度,计算最大最小平均值和方差 变异系数 中位数,这是22个特征
2:
二维坐标下,可以得到一组速度向量和一组加速度向量。一组速度向量可以先求 极径 的 最大、最小、平均值、方差、变异系数、中位数,还有 极角的5个,一共11个。一组加速度向量也同样是11个!
3:
再计算时刻t的间隔情况,最大最小平均值和方差变异系数,加上个数、中位数,这是7维特征,
4:
后面(t时间分布,后1/5吧)一些点x方向的方差,(之前已经把所有点x方向的方差做出来了),另一个是 两者的差值
5:将 one_fifth_x 这个特征连接在原先特征上面,然后求出 差值
6:第一个点 到 第三个点之间的 时间段 在 整个时间段 所占有的比例
7:2701~2900 最后一个点x方向上的速度 和 总体均值的差值
二、模型工程
1:使用xgb gbdt 随机森林 svm lightgbm这几种模型进行投票选择,最终选取阈值判断在0.5的几种模型的交集
三、提分点
1:这种对抗性比赛,一个很突出的特点是 负样本很少,所以在模型训练过程中针对这种问题有两种解决方案。一是不断从 预测集 中找出来负样本放在训练集中,而是训练一个一分类模型 one-svm class
阅读全文
0 0
- 腾讯安全部门-大数据挑战赛-learner队伍(进入复赛)
- 首届“AI Challenger 全球 AI 挑战赛”闭幕!5 大冠军队伍名单公布,数据集永久开放
- 第一届腾讯社交广告 高校算法大赛--基基复基基队伍分享(进入决赛)
- 纪念自己进入Android 应用开发中国大学生挑战赛复赛
- 大数据挑战赛(大佬篇)
- 大数据挑战赛历程与总结随笔
- 大数据挑战赛——人机验证
- 【快讯】第一届大数据技术创新与创业大赛数据堂赛题报名队伍已有77支队伍
- 2013金山西山居创意游戏程序挑战赛——复赛(1) 剑侠情缘
- 2013金山西山居创意游戏程序挑战赛——复赛(1) 非诚勿扰
- 2013金山西山居创意游戏程序挑战赛——复赛(1)非诚勿扰
- 2013金山西山居创意游戏程序挑战赛——复赛(2)连续最大积
- 2013金山西山居创意游戏程序挑战赛——复赛(1) 涂色游戏
- 2013金山西山居创意游戏程序挑战赛——复赛(1) 我是歌手
- 2013编程之美挑战赛复赛---R2_B:招聘(01分数规划+DP)
- 编程之美挑战赛复赛B题
- 2016“编程之美“挑战赛 复赛整理
- 如何进入大数据领域
- POJ a simple problem of Integers
- Spring Data Jpa+SpringMVC+Jquery.pagination.js实现分页
- poj 1149 PIGS 最大流模型
- 插入排序之希尔排序
- 图解快速排序
- 腾讯安全部门-大数据挑战赛-learner队伍(进入复赛)
- RILD
- keras中文文档笔记15——面向小数据集构建图像分类模型
- Servlet回顾总结
- C语言中的关键字
- Linux系统基本操作与命令-1
- node基础【02】异步编程01
- Jobdu1457 非常可乐(BFS)
- 最大连续子序列