[Data]数据挖掘软件的分类

来源:互联网 发布:sql不同数据类型运算 编辑:程序博客网 时间:2024/05/22 17:43
目前市场上发布的数据挖掘软件大致分为三类:通用工具类;综合工具类;面向特定应用工具类。其中:
1. 通用工具类占有较大和成熟的一块市场。从定义上说。它们是非面向特定应用的。从本质上说,它们的范围是水平的,主要包括:SAS Enterprice Miner, SPSS Clementine, IBM Intelligent Miner, Oracle Darwin, Angoss KnowledgeSeeker.
2. 综合工具是指商家要求该类工具能提供管理报告、在线分析处理和在普通结构中的数据挖掘能力。著名的有Cognos Scenario 和 Business Objects。
3. 面向特定应用工具发展迅速,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。重要的工具有:KD1(重点在零售业);Options & Choices(重点在保险业);HNC(重点在欺诈行为探查);Unica Model 1(重点在市场)。
当前的各类数据挖掘软件已经有许多,我们尽量选择了常见的软件,根据其实现的技术进行分类,使我们可以大致了解这些软件,列表如下:


实现技术
数据挖掘软件


统计方法
SAS/EM, Clementine, DataEngine, Partek, Matlab


可视化技术
SAS/EM, Clementine, Visualication Data Explorer, IRIS, Partek, PV-WAVE, WinViz, MineSet, AVS/Express, NetMap, CrossGraphs,


决策树
SAS/EM, Dawin, CART, KnowledgeSEEKER, KnowledgeSTUDIO, Business Miner, Scenario, Intelligent Miner, Decision Series, Minset, ALICE d’I Soft, SE-Learn, MinSet, NCR


神经网络
SAS/EM, Clementine, 4Thought, Intelligent Miner, Decision Series, NeuralSIM, Darwin, DataEngine, DataScope, dbProphet, Partek, KnowledgeSTUDIO, Scenario, HNC, NRC,Unica Model 1


遗传算法
Partek, Aegis Development System, OMEGA,Unica Model 1


关联规则
SAS/EM, MineSet, Clementine, Scenario, Decision Series, Intelligent Miner, NCR,KD1,Options & Choices


K—最邻近算法

SAS/EM, Darwin, KnowledgeSTUDIO, Intelligent Miner


------------------------------------------五款开源的数据挖掘软件--------------------------------------------------

Orange

Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。

RapidMiner

RapidMiner, 以前叫 YALE (Yet Another Learning Environment), 其是一个给机器学习和数据挖掘和分析的试验环境,同时用于研究了真实世界数据挖掘。它提供的实验由大量的算子组成,而这些算子由详细的XML 文件记录,并被RapidMiner图形化的用户接口表现出来。RapidMiner为主要的机器学习过程提供了超过500算子,并且,其结合了学习方案和Weka学习环境的属性评估器。它是一个独立的工具可以用来做数据分析,同样也是一个数据挖掘引擎可以用来集成到你的产品中。

Weka

由Java开发的 Weka (Waikato Environment for Knowledge Analysis) 是一个知名机器学机软件,其支持几种经典的数据挖掘任务,显著的数据预处理,集群,分类,回归,虚拟化,以及功能选择。其技术基于假设数据是以一种单个文件或关联的,在那里,每个数据点都被许多属性标注。 Weka 使用Java的数据库链接能力可以访问SQL数据库,并可以处理一个数据库的查询结果。它主要的用户接品是Explorer,也同样支持相同功能的命令行,或是一种基于组件的知识流接口。

JHepWork

为科学家,工程师和学生所设计的 jHepWork 是一个免费的开源数据分析框架,其主要是用开源库来创建 一个数据分析环境,并提供了丰富的用户接口,以此来和那些收费的的软件竞争。它主要是为了科学计算用的二维和三维的制图,并包含了用Java实现的数学科学库,随机数,和其它的数据挖掘算法。 jHepWork 是基于一个高级的编程语言 Jython,当然,Java代码同样可以用来调用 jHepWork 的数学和图形库。

KNIME

KNIME (Konstanz Information Miner) 是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。它给了用户有能力以可视化的方式创建数据流或数据通道,可选择性地运行一些或全部的分析步骤,并以后面研究结果,模型 以及 可交互的视图。 KNIME 由Java写成,其基于 Eclipse 并通过插件的方式来提供更多的功能。通过以插件的文件,用户可以为文件,图片,和时间序列加入处理模块,并可以集成到其它各种各样的开源项目中,比如:R语言,Weka, Chemistry Development Kit, 和 LibSVM.


----------------------------------数据挖掘软件12款产品比较-----------------------------------------

传统的数据挖掘套件(Classic suites):
SAS Enterprise Miner 5.3
SPSS Clementine 12
 
开源数据挖掘软件(Open Source):
RapidMiner 4.2
KNIME 1.3.5
Weka 3.4.13
 
自动化数据挖掘软件(Self-Acting):
KXEN Analytic Framework 4.04
 
专门化的数据挖掘软件(Specialized):
Viscovery SOMiner 5.0
prudsys Discovery 5.5 / Basket Analyzer 5.2
Bissantz Delta Master 5.3.6
 
BI产品内置的数据挖掘软件(BI Vendors):
SAP NetWear 7.0 Data Mining Workbench
Oracle 11g Data Mining
Microsoft SQL Server 2005 Analysis Services
 
    SAS公司的 Enterprise Miner
    IBM公司的 Intelligent Miner
    SPSS公司的 Clementine
    Statsoft公司的Statistica Data Miner
    DB Miner公司的 DBMiner
    NCR公司的Teradata Warehouse Miner
    Unica公司的Affinium Model
    Insightful公司的Insightful Miner
    Data Miner 公司的RIK, EDM and DMSK
    Information Discovery 公司的Data Mining Suite
    Angoss 公司的 KnowledgeSTUDIO
    Data Mining Technologies 公司的 Nuggets
    Fujitsu公司的 GhostMiner
    Oracle公司的 Darwin
 
比较著名的有IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine等,它们都能够提供常规的挖掘过程和挖掘模式。
    1 Intelligent Miner
    由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用
    户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等;Intelligent Miner for Text允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。
    2 Enterprise Miner[5]
    这是一种在我国的企业中得到采用的数据挖掘工具,比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SAS Enterprise Miner是一种通用的数据挖掘工具,按照“抽样——探索——转换——建模——评估”的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成,实现从提出数据、抓住数据到得到解答的“端到端”知识发现。
    3 SPSS Clementine
    SPSS Clementine是一个开放式数据挖掘工具,曾两次获得英国政府SMART 创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准——CRISP-DM。Clementine的可视化数据挖掘使得"思路"分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。
    其它常用的数据挖掘工具还有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的数据挖掘软件Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等。