阿里的攻城狮和程序媛用算法给骗子“画个像”

来源:互联网 发布:数据标注员要求 编辑:程序博客网 时间:2024/05/08 23:44

点击查看全文


开学季,也是电信网络诈骗的高发季。去年,山东徐玉玉案令人扼腕,尽管不久前,犯罪分子得到了应有的惩罚,但这种悲剧始终是不应该发生。因此,去年10月24日,国务院联席办和阿里巴巴联合推出了“钱盾反诈平台”,就是为了有效治理猖獗的电信网络诈骗。

最近,阿里巴巴安全部算法团队裕宏与钱盾团队梅黛共同产出的恶意电话识别论文“DeMalC: A Feature-rich Machine Learning Framework for Malicious Call Detection” 被信息检索、知识管理和数据库领域中的顶级ACM会议CIKM 2017收录。(注:CIKM全称是The ACM Conference on Information and Knowledge Management,是信息检索和数据挖掘领域的全球顶级学术会议,由美国计算机协会(ACM)主办。2017年工业界能够收录的论文在全球范围内仅有24篇。)
1

得知这一消息,我们第一时间找到了这两位同学。

裕宏是以“阿里星”的身份进入阿里巴巴的(“阿里星”就是每年最厉害的校招生咯),他擅长进行时间序列的数据挖掘,比如股票、心电图以及走路的轨迹等。当年,他曾开创一个算法模式比国外的大拿教授的模式提速了10-1000倍。毕业前,他在微软研究院实习时,又进行过位置和轨迹的相关研究。

梅黛则对数据应用、大数据及机器学习感兴趣,目前在钱盾团队负责欺诈电话的相关数据及算法研究。

实际上,裕宏和梅黛提出了11个能够辨别一个陌生来电是否为恶意电话的维度,但出于保密及降低对抗几率的缘故,裕宏和梅黛只对其中的7个维度进行了介绍。

1、号码本身的属性。

例如号码类型(固话还是移动电话)、运营商(三大运营商+一众虚拟运营商)、归属地等。从事诈骗的团队往往来自某些固定的区域,这并不是地域歧视,而是真实的现状。

2、呼入、呼出的频次和比例。

很简单,骗子呼出电话的频次和比例会远大于呼入电话,这个指标很异常,也非常容易理解。

3、呼入、呼出的时长。

一般人接到骗子电话,会马上挂断或者骂一句再挂断。总之,接到正常电话我们一般不会这么快就挂。所以,骗子的电话绝大多数具有接通时间极短就结束的特征。

4、号码本身的活跃度。
2

显然,诈骗号码,每天都在不停地一个接一个地打电话。然鹅,正常号码是不会这样的。裕宏和梅黛告诉我们,诈骗电话来电时间在每天和每周的分布其实都是有规律的。

5、呼出电话的城市位置信息。

刚才说过,一般的私人电话可能只会和一两个城市的人通话,而骗子显然不会。当然有些公司的电话也有这样的属性,这个话题后面再说。

6、呼出电话对方的设备信息。

每部电话都会对应一个独特的识别码,这个是可以获得的。如果一个电话每次呼叫的设备都不同,那么显然是不正常的。(这个和刚才的呼出电话城市位置信息有异曲同工的地方)

7、拨打的对象之间的联系。



点击查看全文


阅读全文
0 0
原创粉丝点击