E-mail statistic analysis

来源：互联网发布：上海软件开发公司排名编辑：程序博客网时间：2024/04/30 21:56

E-mail statistic analysis

2.1 目的：
对邮件集合进行统计分析，能够显示大量有用信息，帮助调查人员捕捉异常行为、缩小调查范围、提供线索。
常见的统计信息包括：
（1）
对邮件语料库或者邮件样本做统计分析，包括每个发送者（域）或者接收者(域)、类(class)和聚集(cluster)的计算。
（2）
计算相似的统计信息，包括每天不同类型邮件的频率，平均邮件的大小，平均附件的大小等。
（3）
确定一个邮件集合中所有的用户数量，找到每个用户发出信息的所有接收者，确定一封邮件是否被回复。
（4）
通过向数据库发送SQL命令可以动态的计算其它统计信息。

2.2 E-mail mining邮件数据挖掘
通过分类识别邮件的主题和邮件的作者；
通过聚类识别邮件的内容和书写特征。

2.2.1 E-mail classification邮件分类
邮件分类过程：先进行数据清洗，然后进行特征提取。
提取的特征分为两组：训练集和测试集。
（训练集用于建立模型,测试集评估模型的预测等能力）

训练集中的每一个实例均有确定的分类，叫做类标签(class label)。
将训练集中的数据输入一个分类函数（分类器），建立模型。
常见的分类器有决策树、神经网络、支持向量机。
在邮件分类中，邮件的主体(body)和主题(subject)被转换为叫做特征的向量。
通过使用向量空间模型表示法，每一封邮件E(i)被转换为一个n维的向量空间特征：E(i)={f1,f2...fn}.

邮件分类的目的主要有两个：
(1)对新到的邮件根据主题分类；【Topic-based classification】
(2)识别匿名邮件的真实作者。【Author-based classification】

2.2.2. Topic-based classification
为了避免犯罪分析使用不同的词表达方式进行信息隐藏，分类器不应当局限于少量的关键字，而应当在多维数据上进行训练。
例如：传统的邮件分类为“malicious”和“normal” ，我们可以这样分类：‘pornography’, spamming and ‘terrorism’etc

值得指出的是，在基于内容的分类中，与上下文语境无关的词（功能词或者标点）被移除，只有与特定内容相关的特征被保留下来。

测试过程：

从Enron e-mail corpus中选择了300封邮件，这些邮件被手工分为两类：处理公司业务往来和处理个人私事。
每一个类包含150封邮件，从每一类中随机选择100封邮件来创建训练集，50封邮件来创建测试集。
通过创建10中不同的训练集和测试集，使用了3-5个不同的分类器。经过测试，分类器的平均精确度达到81%。

2.2.3. Author-based classification 基于作者的分类

该分类方法中的类标签是邮件的作者(author)或者发送者(sender)。

2.2.4. E-mail clustering 邮件聚集
聚集是在前面讨论的主题和作者分类的基础上对邮件进行分组。
与分类的唯一区别是：该方法不是计算文档中一个单词出现的频率，而是计算在所有文档中一个单词的重要性。

注：
TF-IDF表示某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。
TF-IDF的主要思想：
如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF词频(Term Frequency)
指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是：如果包含词条的文档越少，IDF越大，则说明词条具有很好
的类别区分能力。

2.3. E-mail authorship attribution 邮件作者归属

略

0 0