大数据环境下集成R语言的数据挖掘系统 之 数据分析

来源:互联网 发布:淘宝质量问题如何投诉 编辑:程序博客网 时间:2024/04/29 17:27

这一篇主要介绍数据分析模块实现的算法。

分类模块

流程图

这里写图片描述

功能

本模块实现了数据分类功能,系统提供了SVM,KNN,决策树,随机森林等分类算法。首先通过对测试集的数据进行模型构建,在构建模型过程中我们可以对模型进行参数设置,模型构建完成之后,我们对预测集进行预测,最后将分类的结果导出。

实现原理

这里写图片描述

聚类模块

流程图

这里写图片描述

功能

本模块实现了数据聚类功能,系统提供了kmeans,clara,PAM,Agnes,Diana算法。针对不同的算法,用户需要设置不同的参数,然后系统根据用户设定的参数进行数据聚类,聚类结果将以图和表的形式给用户显示出来。

实现原理

这里写图片描述

时间序列

流程图

这里写图片描述

功能

本模块实现了对时间序列数据分析的功能,用户上传时间序列数据,然后设置时间序列参数,通过显示出来的时间序列,我们判断它是否满足相加模型,如果数据满足相加模型我们就不进行处理,否则我们对数据进行相应的处理,使得数据满足相加模型,当数据满足相加模型之后我们对数据进行时间序列建模,我们可以选择自动分析和手动分析,自动分析时系统会根据数据自行设定arima模型的参数,进行相应的分析,手动分析将由用户自己对模型的参数进行设定,模型建立后我们还可以对模型进行评估,看模型是否是最优模型,能否满足用户的需求,最后用户利用模型进行预测。

实现原理

这里写图片描述

关联规则挖掘

流程图

这里写图片描述

功能

上传事务型或记录型数据集作为数据源。系统提供了Apriori算法进行关联规则的分析。Apriori算法是最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的递推算法。

原理

这里写图片描述

0 0
原创粉丝点击