从游戏到用户分类

来源：互联网发布：lte弱覆盖优化编辑：程序博客网时间：2024/05/25 19:55

困境

最近在做Antispam的过程中，遇到了这样一个困境：当策略调整的太严格的时候，就容易伤害到很多正常用户，当策略太宽松的时候，就很容易漏掉很多垃圾用户，不过这样一个问题也是在早期就已经预料到随着spammer的成长必然会遇到的问题，只不过没想到会来的这么快，于是我们就开始想着，如何解决这种困境。

思路

解决这个问题的思路有两个

利用站上的业务数据，比如赞同感谢神马的给用户分级；
利用用户自己的行为，给用户分类。
第一个思路牵涉到的场景和业务相关性很强，每个网站使用起来参考性不大，但是第二个思路却是一个通用性的解决方法，我们就来聊聊第二个思路。

利用用户自己的行为给用户分类，广义的分类方法在机器学习上可分为监督方法和无监督方法，两种的区别在于，监督方法需要事先对于训练集给出标准答案，然后将标准答案输入到学习算法中，然后建立模型，处理后续的输入方法；而无监督学习，是事先没有标准答案，利用个体之间在输入数据上的相近程度，自然聚成一类。

通过以上的描述，可能无监督的学习方法更适合我们，因为我们实现不知道用户有几类，也没有标准答案。那么问题就来了，目前大多数聚类算法，原理大多数都是利用空间点中的相近程度，将点分成若干类，差别可能是，有的用的是欧几里得距离，有的用的是余弦距离，有的用的是空间密度分布而已，那么摆在我们面前一个急需解决的问题就是，如何将用户的行为量化，也就是映射到一个n维空间中，用来对用户进行聚类呢？

启发

为了解决这个问题我也是想了很久，有一天实在无果，就玩起了一个手游，养成类游戏，大题思路就是一群人闯关，然后过程中给不同的人加点，然后这个英雄就会有不同的技能。玩的正无聊，我妹子问了我一句，这些英雄，你怎么知道把谁安排到前面，谁放在后面啊。我说，有的英雄体力高，可以放在前面挡着，有些英雄魔法高，就只适合放在后面作为远程攻击了，也许是听着无心，言者有意吧，我突然想到这么一个场景。

当一个英雄刚刚产生的时候，他在体力和魔法上的点数是一样，这个时候你分不清他是战士还是魔法师，但是当游戏不断进行，你购买了各种装置，每种装置在体力和魔法上加成都不一样，慢慢的，有的英雄体力更强，这个时候就比较适合物理战斗，有的魔法值更强，就适合魔法攻击，自然就分成了两类。

英雄的分类方法，是按照体力值和魔法值不同，分成两类，那么很自然的就想到，对于不同功能的使用偏好，是不是我们分类用户的思路呢？那么又怎么衡量一个用户的偏好呢？就是利用用户在不同功能模块上被加成的点数，我们可以按照用户访问每个模块的次数不同，来定义这个用户的习惯，进而根据用户的习惯，决定这个用户的类型。一下子思路就清晰了。

下面就用一个demo来解释一下吧：

求解

行为计数向量表示法

我们假设我们的网站有四个模块，分别是ABCD，有四个用户分别是1234。我们现在有了这四个用户的访问日志，格式是

<user>, <path>, <stamp>

比如说 1, A, 1234567 这个样子，那么我们对这些日志进行聚合，就可以得到一个用户访问每个模块的次数,如下表格：

A B C D 1 0 0 0 2 1 3 1 3 2 2 2 4 3 4 2

这样就可以分别用一个4维向量代表一个用户，比如1号用户就是 [0,0,0,10] 其他类似。

再这样数据的基础上，我们可以使用聚类算法比如KMeans，得到1号用户这个离群点，对这个离群点特征性比较强的D模块上，加大监控力度，在刚刚准备作恶的时候，就组织他，或者采用其他措施。

以上这种方法可以很自然的将用户转换成一个n维向量，但是转换过程中却丢失了一个很重要的属性，也就是时间属性，丢失了访问的先后次数，而这个先后次数对于定义用户的类别却十分有用。那么自然我们就有了第二个思路：行为序列向量表示法

行为序列表示法

依然是上面的四个模块: ABCD，我们现在得到了四个人的访问序列：

1: A -> C -> D -> B2: C -> D -> B3: A -> C4: A -> A -> D -> A -> A -> A -> D

当有了上面数据以后，我们采用一些数据对齐的方法，比如采样相同时间段的数据相同长度的数据，就可以将每个人的行为序列，也转换成一个向量，然后对这些向量使用各种聚类模型，对用户分类。当然我们也可以模仿类似于贝叶斯中的基于先验概率的模型，实现我们的训练过程中，根据标记数据，我们获知，A -> A -> A这种情况出现的概率很小，这样我们就可以知道，4号用户很可能有什么异常，爬虫或者是spammer。

当然在实际模型建立过程中，不可能只依靠一种算法，对于数据也不会像例子上面那么清晰，会有很多的噪声和其他影响，需要其他的技术辅助处理，再配合策略作为限制，相信会有比较不错的效果，目前正在研究第一种思路，聚类效果明显，且某些类别的spam比例能到达99%，好了，就扯这么多了吧。

0 0