Knime简介

来源：互联网发布：新疆建设银行利息算法编辑：程序博客网时间：2024/06/06 08:26

一接触数据挖掘，用的就是Knime，什么Weka，SPSS，SAS基本都只限于听说过而已-_-.由于是基于eclipse的，对我来说自然是十分亲切，所以用起来也十分顺手，用了也有一段时间，打算做个阶段性小结，也顺便提高自己。 Knime是基于Eclipse的开源数据挖掘软件，它通过工作流的方式来完成数据仓库以及数据挖掘中数据的抽取-转换-加载（Extract-Transform-Load）操作。其中工作流又是由各个功能便利的结点来完成，节点之间相互独立，可以单独执行并将执行后的数据传给下一个结点。界面如下：将左下角Node Repository区域的结点以此拖入中间的Worflow Editor形成工作流：结点的状态：结点上有三盏灯，就像红黄绿交通灯一样。当结点刚被拖入工作区的时候，红灯亮起表示数据无法通过，这时需要对结点进行配置，让它可以执行。右键单击结点选择“Configure”对结点进行配置；配置完成并且正确的话，便会亮起黄灯，表示准备就绪数据可以通过；再次右键单击结点选择“Execute”运行这个结点，当绿灯亮起时表示结点执行成功，数据已经通过并传给下一个结点。结点分类，一共有以下几类结点： 1、IO类结点，用于文件、表格、数据模型的输入和输出操作； 2、数据库操作类结点，通过JDBC驱动对数据库进行操作； 3、数据操作类结点，对上一结点传进来的数据进行筛选、变换以及简单的统计学计算等操作； 4、数据视图类结点，提供了数据挖掘中最常用的表格及图形的展示，包括盒图，饼图，直方图，数据曲线等； 5、统计学模型类结点，封装了统计学模型算法类的结点，如线性回归、多项式回归等； 6、数据挖掘模型类结点，提供了贝叶斯分析，聚类分析，决策树，神经网络等主要的DM分类模型以及相应的预测器； 7、META原子结点，该类结点可以对任意的及结点进行嵌套封装，还提供了后向传播、迭代、循环、交叉验证等方法； 8、其他，可供我们自定义java代码段，以及设置规则引擎。