数据挖掘工具SmartMining

来源:互联网 发布:qq音乐上传歌曲到网络 编辑:程序博客网 时间:2024/06/17 16:16

应用场景

当遇到数据分类,聚类,预测等场景问题,普通的SQL方法无法解决,需要借助算法这件武器,比如聚类算法,分类算法,预测算法等等,但是手动去研究一个算法比较吃力,有没有那种工具,直接拖拉拽的方式,直接将算法利用起来呢?比如免费版的SPSS,SAS等,今天介绍一款收费版的SmartbiMining,仅仅试用,如果真要生产使用,是要购买的,量力而行!

操作步骤

1. 概述

产品下载测试使用地址

SmartMining,作为国产数据挖掘软件,与国外的数据分析软件SPSS,SAS作用一致,该界面设计简洁,只要了解界面,就能独立完成数据挖掘工作。简单的说,SmartMining就是将一些常用的算法封装成一个个节点的形式,类似公司数据转换工具Epoint DI,通过拖拉节点的形式,进行算法的使用,来实现数据挖掘分析的工作。

目前常用的两个版本,桌面版本和服务器版本。桌面版作为服务器版的客户端使用,所有的数据挖掘工作流可以在客户端进行搭建和执行。

SmartMining服务器版和桌面版的区别:

  • 实现对数据源的深层权限管理,进一步提高了数据安全性
  • 将个人电脑的计算能力扩展到了具备更高性能的服务器上,提高了计算能力。
  • 可将数据挖掘成果一键式发布到服务器上,实现对模型的快速部署。
  • 可以快捷的建立最终用户使用的交互门户,实现对数据挖掘成果的快速应用。
  • 可以轻松的制定计划任务,模型会按照计划进行更新和优化。
  • 最终用户可以通过网页可视化的浏览数据挖掘成果。

这里写图片描述
SmartMining服务器版

这里写图片描述
SmartMining桌面版

数据挖掘的工作流构建:SmartMining通过完全的拖拽式操作,来构建算法工作流的方式,将不同的算法拼接成任务流,来实现流式的数据挖掘。

2. SmartMining桌面版介绍

2.1 操作界面

这里写图片描述
包括五个部分:

  • 菜单栏:软件的配置菜单和各种操作按钮;
  • 节点库和浏览区:SmartMining将各种算法封装成可以拖拉拽的节点,提供给使用者,节点库中包含了丰富的算法节点,而浏览区中展示了示例的工作流,供使用者模仿学习;
  • 工作流操作区:数据挖掘工作流的构建区域,并且是可视化的流式操作界面;
  • 大纲:显示整个工作流的结构;
  • 消息区:操作过程中产生的系统日志。

2.2 节点库

节点库根据节点的不同功能,将节点划分为以下这几个不同的模块。

这里写图片描述

2.2.1 数据源

这里写图片描述

  • 数据源模块用来读取不同格式的数据,提供各种数据源的连接与绑定:
  • 支持各种接口的JDBC数据库;
  • 连接Hadoop用的HIVE节点;
  • CSV,Excel等文本格式的读取节点;
  • 支持数据行列转换;
  • 连接服务器版Server数据源的SmartBI节点;

2.2.2 数据准备

这里写图片描述

数据准备模块包含了数据处理的节点,根据处理对象的不同,分为对行的处理和对列的处理,来对字段进行转换;
对于技术人员,可以使用节点库中的java自定义节点接口,通过自定义节点下的一些节点,用户可以很方便的自定义算法。

2.2.3 可视化探索

这里写图片描述

数据清洗之后,通常需要可视化的方式,探索数据特征,可视化节点模块,不仅包含常用的散点图,条形图,等基础图形之外;还提供了地图,网络图,词云等丰富的图形探索和展现方式。

2.2.4 统计分析

这里写图片描述

统计分析模块是统计分析专用的节点,包括假设检验,方差分析,计算特征统计量的统计节点,以及基于开方检验的交叉表。

2.2.5 数据挖掘

这里写图片描述

数据挖掘模块包含了最核心的算法节点,根据不同算法类型,对这些模型节点进行了分类。

2.2.5.1 分类预测

这里写图片描述

用于在已知一定影响因素的情况下,我们需要对目标字段进行预测的场景,包括对字符型目标字段和对数值型目标字段进行预测的算法,比如预测新来的顾客会购买什么产品或者预测客户属于那种级别,包含了线性回归,神经网络,决策树,SVM,贝叶斯等。

2.2.5.2 聚类分析

用来解决类似于对产品进行分类,和对客户进行分群的问题,这些算法可以将相似的对象聚类在一起,有K-means,层次聚类等算法。

这里写图片描述

2.2.5.3 时间序列

目标为数值型,且带时间维度的预测场景,如预测未来每个月的用电量,类似这样的时序数据,就需要时间序列的算法。

这里写图片描述

2.2.5.4 关联规则

用关联规则分析最经典的应用场景,类似购物篮分析,分析用户购物时哪些产品会被同时购买的可能性比较大,这样超市可以将这些产品靠近摆放,给客户方便同时,也可以提高销量,例如“啤酒与尿布”的经典营销案例。

这里写图片描述

2.2.5.5 特征选择

用于筛选输入的算法。

这里写图片描述

2.2.5.6 降维分析

这里写图片描述

降维分析用于减小数据的维度。

2.2.5.7 模型评估

模型评估用于评估模型的稳定性和准确性。

这里写图片描述

2.2.6 文本挖掘

文本挖掘用于分析非结构化的数据。

这里写图片描述

2.2.7 社交网络

社交网络模块用于分析社交类的数据,意见领袖的挖掘等。

这里写图片描述

2.2.8 SmartR

SmartR模块集成了开源软件R语言来满足更多用户的需求。可以直接输入R代码,来得到想要的结果。SmartR实现了对R语言的封装,也可以通过简单的配置界面来实现数据的分析。

这里写图片描述

2.2.8.1 通过R脚本展示

这里写图片描述

2.2.8.2 通过配置展示

这里写图片描述

2.2.9 数据导出模块

用于导出数据,比如分析的过程中,产生了一个用户名单,需要将名单导出以便于后续的运用,就可以按照要求选择不同的格式进行导出。

这里写图片描述

3. SmartMining服务器版介绍

3.1 操作界面

这里写图片描述

数据挖掘的服务器版是桌面版的升级版,桌面版可作为服务器版的客户端使用,所有的数据挖掘工作流可以在客户端进行搭建和执行,上图是服务器版的web操作页面。

服务器版与桌面的区别主要包括以下几方面:
权限管理;
服务器版处理数据的性能较桌面版大大提升,可以处理TB级别的数据;
服务器版支持桌面版的一键式发布;
进行数据挖掘的可视化以及丰富的展示图形部件;
创建页面;
计划任务,实现实时更新。

3.2 权限管理

SmartMining服务端的权限管理包括,用户权限管理和数据权限管理。

3.2.1 用户权限管理

权限管理模块实现的是对所有用户权限进行统一管理,包括开发用户和浏览用户的权限分配,如用户登录后可以看到什么样的信息,以及开发人员有什么样的权限,都是在权限管理模块中进行配置。

这里写图片描述
用户权限管理

3.2.2 数据权限管理

数据管理模块实现的是对数据权限的管理,可以对挖掘分析所连接的数据源统一的配置和进行权限控制,保证数据的安全性。

这里写图片描述

这里写图片描述

进入此操作,把数据表分配给具备该表权限的用户。

3.3 性能提升

在使用SmartMining桌面版的时候,在桌面版的工具栏中的服务器配置中,将计算服务器从本地服务器切换到SmartMining服务器,这样,当我们点击执行的时候,就会把工作流任务传递到服务器上,进行执行,最后再把结果传递到SmargMining桌面版,实现计算能力的扩展。

这里写图片描述

3.4 一键发布

在桌面版SmartMining中,进行配置,选择工具,进行服务器配置,勾选SmartMining发布服务器。

当在SmartMining桌面版中,根据业务目标构建并执行工作流,得到分析结果,在图形的右下角,一键进行发布到服务器版中,进行浏览展示。

这里写图片描述

这里写图片描述

这里写图片描述

在服务器版进行发布后的查看,发布后的成果可以作为服务器端的一个资源,进行进一步的应用。

这里写图片描述

这里写图片描述

3.5 计划任务

这里写图片描述

如图中展示,进行需要的配置。

4. 实验展示

采用一个简单的应用场景,进行测试。

4.1 场景

场景:是否能够参加户外活动,需受很多因素的影响,例如温度,是否下雨,湿度,风向等等,更具一些约束条件,生成是否能出去PLAY的决策树。

4.2 源数据

源数据如下图所示:

这里写图片描述

4.3 配置工作流

这里写图片描述

执行工作流后产生的决策树如下图所示:

这里写图片描述