E-mail statistic analysis

来源:互联网 发布:上海软件开发公司排名 编辑:程序博客网 时间:2024/04/30 21:56

E-mail statistic analysis

2.1 目的:
对邮件集合进行统计分析,能够显示大量有用信息,帮助调查人员捕捉异常行为、缩小调查范围、提供线索。
常见的统计信息包括:
(1)
对邮件语料库或者邮件样本做统计分析,包括每个发送者(域)或者接收者(域)、类(class)和聚集(cluster)的计算。
(2)
计算相似的统计信息,包括每天不同类型邮件的频率,平均邮件的大小,平均附件的大小等。 
(3)
确定一个邮件集合中所有的用户数量,找到每个用户发出信息的所有接收者,确定一封邮件是否被回复
(4)
通过向数据库发送SQL命令可以动态的计算其它统计信息。


2.2 E-mail mining邮件数据挖掘
通过分类识别邮件的主题和邮件的作者
通过聚类识别邮件的内容和书写特征。

2.2.1 E-mail classification邮件分类
邮件分类过程:先进行数据清洗,然后进行特征提取。
提取的特征分为两组:训练集和测试集。
(训练集用于建立模型,测试集评估模型的预测等能力)

训练集中的每一个实例均有确定的分类,叫做类标签(class label)。
将训练集中的数据输入一个分类函数(分类器),建立模型。
常见的分类器有决策树、神经网络、支持向量机。
在邮件分类中,邮件的主体(body)和主题(subject)被转换为叫做特征的向量。
通过使用向量空间模型表示法,每一封邮件E(i)被转换为一个n维的向量空间特征:E(i)={f1,f2...fn}.


邮件分类的目的主要有两个:
(1)对新到的邮件根据主题分类;【Topic-based classification】
(2)识别匿名邮件的真实作者。【Author-based classification】



2.2.2. Topic-based classification
为了避免犯罪分析使用不同的词表达方式进行信息隐藏,分类器不应当局限于少量的关键字,而应当在多维数据上进行训练。
例如:传统的邮件分类为“malicious”和“normal”  ,我们可以这样分类:‘pornography’, spamming and ‘terrorism’etc

值得指出的是,在基于内容的分类中,与上下文语境无关的词(功能词或者标点)被移除,只有与特定内容相关的特征被保留下来。


测试过程:

从Enron e-mail corpus中选择了300封邮件,这些邮件被手工分为两类:处理公司业务往来和处理个人私事。
每一个类包含150封邮件,从每一类中随机选择100封邮件来创建训练集,50封邮件来创建测试集。
通过创建10中不同的训练集和测试集,使用了3-5个不同的分类器。经过测试,分类器的平均精确度达到81%。


2.2.3. Author-based classification 基于作者的分类

该分类方法中的类标签是邮件的作者(author)或者发送者(sender)。

2.2.4. E-mail clustering 邮件聚集
聚集是在前面讨论的主题和作者分类的基础上对邮件进行分组。
与分类的唯一区别是:该方法不是计算文档中一个单词出现的频率,而是计算在所有文档中一个单词的重要性。

注:
TF-IDF表示某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语
TF-IDF的主要思想:
如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)
指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好
的类别区分能力。


2.3. E-mail authorship attribution 邮件作者归属

0 0