Data Mining的分析工具

来源:互联网 发布:设计电路板的软件 编辑:程序博客网 时间:2024/04/30 09:31

产品名称

平台

简介

Clementine(SPSS)

Intel Pentium systems runing Windows NT,HP 9000 series running HPUX 10 and aboveSilicon Graphics running IRIX,Sun SPARC running Solaris 2.x,and Digital ALPHA running Digital UNIX 3.x or VMS 6.x

ClementineSPSS所发行的一种数据探勘工具,此工具结合了多种图形使用者接口的分析技术,包含neural networksassociation rules、及rule-induction techniques,这些工具提供容易使用的可视化程序环境来执行这些分析功能。

Clementine使用图形象征的方法,就是透过托拉鼠标和连接屏幕上的功能节点,这些节点提供了data accessdata manipulationdata visualizationmachine learning以及model analysis,模式的组成是从一个pallet中选取合适之节点,并放置在屏幕上再连接各节点

Clementine有强大的数据存取能力包含flat file及关系型数据库(经由ODBC)Clementine也可让modeling的结果持续的写回一ODBCDBMS

输入数据的操作包含配对合并及衍生新字段的能力,Clementine的数据可视化能力包含散布图、平面图及Web分析,

4Thought and Scenario(Cognos)

Wintel platforms running Microsoft Windows operating systems(Windows 95 or higher,and/or NT)

Cognos介绍两个数据探勘工具的组合:4ThoughtScenario来巩固它在OLAP市场的位置,这些工具藉由利用neural networksCHAID技术提供数据探勘能力,一般而言,Cognos所有平台和特殊用途的窗口环境都支持这些工具,这两个工具都需要电子表格、数据库和ASCII文字文件作为数据来源

4Thought可以处理在寻求价格最佳化、需求预测及效能预测及衡量等各种商业问题,4Thought使用multilayer perceptron OLAPneural network技术,适用于分析问题,处理non-linear formsnoisy datalsmall data sets4Thought提供了两个主要的分析:time series analysiscustomer profilingtime series analysis寻找周期性的行为趋势,而customer profiling处理人口统计数据,例如,预测一顾客是否会购买一特定的产品

Scenario是设计用来分类及结合问题;它可以找出一数据组中变量间的关系,Scenario使用Chi-squared Automatic Interaction Detection(CHAID),且可以产生多种对预测变量划分的方法,Scenario提供不同的分析策略、自动取样及决策树的产生,然而,Scenario并不是用来处理分类的目标变量,Scenario在数据探测及可视化是十分强大的

Scenario4Thought的共同优点是他们广泛且直觉的使用者接口,他们的目标锁定在初学者,它使用绘图表示univariable analysisdecision tree metaphor,且提供一良好的视觉表达方式来表现在区域间的数据变量,趋势分析及相关因素,Scenario有一template可分析从竞争及每季获利信息

Cognos表示它将以它的PowerPlay(OLAP)Impromptu(reporting)应用软件整合4ThoughtScenario

Darwin(Oracle)

With the server platform ranging from uniprocessors to SMPs, to massively parallel processors including Wintel systems running Windows NT;as well as UNIX-based products from Sun Microsystems,HP,IBM,NCR,and Compaq/Digital

Darwin常被认为是最早数据探勘工具之一,可见它的知名度,最近,OracleThinking Machines公司取得Darwin来加强它的产品系列S别是CRM方面,数据探勘可以扮演一个重要的角色,以下将讨论由Thinking Machines公司发展和营销的Darwin之特色(Oracle也许决定改变任何组件及工具架构)

Darwin数据探勘工具组是一个复杂的产品,包含了三个数据探勘工具:neural networksdecision tree、和K-nearest neighborDarwin neural network tool (Darwin-Net)提供广泛的model建立工具组,它可以处理明确和连续预测因素和目标变量且可以用于分类、预测及预测问题

决策树工具(DarwinTree)使用CART算法,且可以用于以明确和连续变量来分类问题解决,K-nearest neighbor工具(DarwinMatch)可用于以明确相依变量,和明确且连续预测变量来分类问题解决

虽然每个组件工具有一些缺点,Darwin包含了模式评价的完全功能组,它可对所有模式型态产生summary statisticsconfusion matriceslift tables

Darwin提供初学者及专家相当好的使用者接口,虽然接口显得较适合专业使用者

从一个大量并行计算机的第一制造者可知,Darwin在处理效能及范围有强大的优势,它的算法对并行计算是最适合的,且有足够的弹性执行平行及循序架构,Oracle当然不会忽视这种能力,且它定位在帮助Oracle成为可以包含到一个大型的全球企业的数据库及应用产品的首要厂商

主要使用的算法为neural networkdecision tree、和K-nearest neighbor

neural network-training algorithms包含back propagationsteepest descentmodified Newton等方法

decision tree使用CART algorithms可选择所需的子树数目自动的修改决策树

K-nearest neighbor algorithmmemory-based reasoning(MBR)技术,它可依训练组中K最接近的匹配记录来预测相依变量值

结论

Darwin的优点是支持多重算法(计划加入基因算法及人工智能逻辑)它可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,在多处理器服务器上,Darwin可以取得硬件及大范围能力的优势,Darwin证明了强大的效能及大范围的能力,整体而言,Darwin定位在中、大范围的执行

Database Mining Workstation(HNC)

 

HNC是最成功的数据探勘公司之一,它的Database Mining Workstation(DMW)是一种广为接受的信用卡诈骗分析应用的neural network toolDMWWindows-based software applicationscustom processing board所组成,其它HNC产品包含FalconProfitMax在财务服务及HNC打算要在通讯业中扩张的Advanced Telecommunications Abuse Control System (ATACS)诈骗侦测解决方案之应用

DMW neural network支持back propagation neural network且可以自动及手动的模式来作业,它的模式可以使用广泛的统计和计算预测变量和对一相依变量的敏感度之相关性的功能来解释

DMW提供大量的使用者定义选项允许在算法修改、数据准备、和操作函式上有很大的弹性,DMW有效的处理明确且连续的变量,并且可以用于预测、分类、及预测问题,

DMW提供初学者及有经验使用者包含进阶调整选项及描述能力之接口,DMW也提供可用于直销活动的商业template

DMW在产生精确及有效预测模式上是十分优异的,它的处理效能及范围足以支持主要的信用卡处理需求

结论

DMW是强大、成熟的产品,且市场接受度非常好,它的诈骗侦测/分类应用可用于实时分析信用卡交易,这是它在范围及效能上最好的证明

Decision Series(NeoVista)

Runs on a variety of UNIX platforms,including Sun Solaris,HP-UX,and Digital UNIX

NeoVista解决方案的Decision Series是广泛使用的数据探勘工作,这间公司是由大量平行硬件厂商MasPar公司所发展出来的,类似于Darwin,这就具有了强大的理解及可调整范围之执行方式,高效能数据探勘解决方案

Decision Series是一提供整合可描述及预测分析算法的data miningknowledge environment,算法在执行由使用者自定的各种控件是非常有效率的,分析能力包含clusteringassociation rulesneural networks、及decision treeDecision Series以数据存取及数据转换引擎完全的整合这些算法,因为公司的背景,它可以在公司所宣称达到近线性范围能力的SMP系统中高度的调整并行操作,工具的范围能力可在零售业的存货管理中的调度得到证明,Decision Series可用于每周零售商分析销售点数据,数据可表示大约70GB

从使用能力的观点来看,Decision Series定位在有经验的老手所使用的工具,NeoVista发展易于使用的GUI界面,且提供专家顾问服务(称之为Knowledge Discovery Engineers,或KDE),它们常working on-site部分的prototypepilot project

工具的软件架构是由几个组件和以对象导向设计所组成的,数据探勘引擎?/FONT>DecisionNetDecisionTreeDecisionClusterDecisionARO建立在数据存取及数据转换层的顶端,也提供了另一引擎称为DecisionAccess,数据探勘引擎继承DecisionAccess特性且因此可以容易的连结在一起

结论

Decision Series是一强大的产品,它在架构及数据探勘算法上是十分优异的,且可以调整范围和采取平行硬件架构的优点,在使用者评估上,它在确定的问题类别时,在范围能力、预测精确及处理时间上执行得非常好,整体而言,Decision Series定位于大范围分析的执行

Enterprise Miner(SAS)

SAS Enterprise Miner可以在主从式架构或独立的架构上执行,此外,在主从式模式下,Enterprise Miner允许服务器只当数据服务器,计算服务器或两者的组合,Enterprise Miner可在SAS所支持之所有平台执行

SAS Enterprise Miner在数据探勘工具市场是非常杰出的工具,它运用了SAS统计模姐的力量和影响力,且它增加了一系列的数据探勘算法,SAS使用它的取样、探测、修改、模式、评价(SEMMA)方法提供可以支持广泛的模式,包含合并、丛集、决策树、类神精网络、和统计回归

SASEnterpriseMiner适用于初学者及专业使用者,它的GUI接口是以数据流为导向,且它容易了解及使用,它允计分析师藉由使用连结连接数据节点及程序节点的方式建构一视觉数据流程图,除此之外,接口还允许程序码直接嵌入数据流

因为支持多重模式,Enterprise Miner允许使用者比较models和利用评估节点所选择之最适模式,除此之外,Enterprise Miner提供产生评定模式之评定节点能够存取任何SAS应用软件

结论

SAS利用它在统计分析软件上的专业来发展全功能、易于使用、可靠且可管理的系统,有大范围的模式选项和算法、设计良好的使用者接口、利用已存在的数据储存能力,和在统计分析上相当大的市场占有率(允许公司取得SAS新增的组件比增加一套新的工作来得好多了),对SAS来说,它在数据探勘市场上终究还是领导者

整体而言,这个工具适用于企业在数据探勘的发展及整个CRM的决策支持应用

Intelligent Miner(IBM)

Intelligent Miner是以client端控制使用者接口和数据可视化函式的主从式系统,因此数据探勘和数据操作引擎存在server里,server组件由以下平台所支持:IBM RS/6000IBM SP执行AIXIBM S/390执行MVS、及IBM AS/400client组件可在Windows 95Windows NTIBM OS/2、及IBM RS/6000执行AIX

IBM公司以它在美国及世界各地的研究实验室发展数年的数据探勘解决方案,发展出了一系列包括在人工智能、机制学习、语言分析及知识发掘上的应用和基本研究的精密软件

这里所讨论的这套是名为Intelligent Miner的软件

IBMIntelligent Miner在数据探勘工具的领导地位上是极具竞争力的,因为它提供了以下的好处:

包含了最广泛的数据探勘技术及算法

可容纳相当大的数据量的能力且有强大的计算能力;事实上,这套产品在IBM SP的大量平行硬件系统上执行效率最好,这套产品也可以在IBM或非IBM平台上执行

丰富的APIs可用来发展自定的数据探勘应用软件;所有数据探勘引擎和数据操作函式可以透过C++函式库来存取

Intelligent Miner支持classificationpredictionassociation rules generationclusteringsequential pattern detectiontime series analysis算法,Intelligent Miner藉由利用精密的数据可视化技术及强大的Java-based使用者接口来增加它的可用性(目标大多锁定在有经验的使用者),Intelligent Miner支持DB2关系型数据库管理系统,并整合大量精密的数据操作函式

结论

整体而言,Intelligent Miner(for Data)是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,有所算法的效能甚至比其它应用不同的应用软件还要好,IBM将它定位在企业数据探勘解决方案的先锋

KnowledgeSEEKER and Knowledge Studio(Angoss)

KS支持Wintel平台执行的MS Windows和几个UNIX平台,包含HP UXSolarisAIX

Angoss Software所开发的KnowledgeSEEKER(KS)是一套决策树数据探勘工具,它使用CARTCHAID为决策树的算法用以找出数据组中预测因素和相依变量间的关系,就其本身而论,KS可以明确且连续的相依变量用来分类问题

这套工具的主要定位在于数据探测能力,它的使用者接口提供决策树模式的图形表示,使用者可以选择每一个分枝及指定预测变量群,在自动方式下,所有产生的分枝也是可用的,KS提供专业使用者大量的调整能力,包含修改算法或限制树的成长,KS包含它的统计推论引擎的AIP可以用C产生模式和汇入它们的结果到外部应用程序

结论

KnowledgeSEEKER是在目标营销上可调整顾客范围大小之一套成熟的软件,在顾客的评比中,它的效能和精确度都是适当的

为了维持产品的气势,Angoss19985月扩充KnowledgeSEEKER成大型分析架构,称为Knowledge Studio,它整合了各厂商的数据探勘组件成为共同的环境,藉由提供决策树、类神精网络、网页接口及Java的可移植性,Angoss计划将Knowledge Studio定位成数据仓储发展的关键组件,Knowledge Studio也利用Windows的兴起,推出了SDKSDK使用ActiveX技术帮助其将产品嵌入垂直应用软件,Angoss已经和数家厂商发展高度的合作,包含CognosMCI/SHLAT&TTandem

Model 1 and Pattern Recognition Workbench(Unica)

PRWModel 1支持所有IBM兼容的Wintel平台

 

最近在数据探勘市场的调查,Unica估计在IBMInformation Discovery之后有大约9%的市场占有率,这显示出Unica已整合了Model 1(原来是Group 1)和它自己的Pattern Recognition Workbench(PRW)

PRW是一般的数据探勘工具,因此Model 1Unica而言是垂直应用软件,而且它在公司中似乎是成长的产品线,Model 1是高度自动化的数据探勘工具,它支持大量的目标营销分析能力

Model 1工具包含Response Modeler modulecustomer Segmenter moduleCross-Seller module、及Customer Valuator module

Response Modeler识别最可能对广告活动响应的顾客

Customer Segmenter module将顾客区隔为相似地理及购买行为的族群

Cross-Seller module将最可能购买产品之顾客配对

Customer Valuator module识别潜在高价值的顾客

虽然PRWModel 1提供了大量精密的数据探勘技术,包含K nearest neighborK meansnearest clusterradial-basis function(RBF)、供pattern recognition用的Gaussian 算法、neural networksgenetic algorithmsregressionRecency Frequency Monetary algorithms(RFM),这些工具被设计让非技术型的使用者也可以使用,从使用者的观点来看,PRWModel 1提供了很多的辅助精灵引导使用者完成最后的模式,Unica的工具可以自动的搜寻各种算法及参数设定以选出最佳的模式,当模式被建立及评价之后,会自动的建立一Visual lift chart让使用者可容易的识别可精确预测及良好效能模式的分类

这两样工具都提供了可允许使用者可以回顾模式在各阶段细节的丰富报表能力,报表将模式分类且提供模式和输入数据摘要统计,大量的使用精灵、营销样板、使得Model 1特别适合初学者,然而,专业使用者有足够的能力处理许多工具算法的参数

整体而言,这两项工具定位在可大量的增加营销应用的自动数据探勘工具

为了增加市场应用及占有率,Unica已经建立一数据探勘顾问组织,它希望能为它的收益带来显著的增加

结论

UnicaModel 1Pattern Recognition Workbench(PRW)代表特别适用于营销应用的产品,这两项工具都提供了优异的使用方式及精确的预测