KNIME 数据分析平台

来源:互联网 发布:扎克伯格起诉社交网络 编辑:程序博客网 时间:2024/06/10 04:54

这里写图片描述


一、KNIME简介

1.历史发展

KNIME的发展始于2004年1月,由康斯坦茨大学的软件工程师团队作为专有产品。由Michael Berthold领导的原始开发团队来自硅谷的一家公司,为制药行业提供软件。最初的目标是创建一个模块化,高度可扩展和开放的数据处理平台,从而轻松集成不同的数据加载,处理,转换,分析和可视化探索模块,而不必关注任何特定的应用领域。该平台旨在成为一个协作和研究平台,也应作为各种其他数据分析项目的集成平台。

2.核心架构

KNIME允许用户直观地创建数据流(或管道),有选择地执行一些或所有分析步骤,然后检查结果,模型和交互式视图。KNIME是用Java编写的,并且基于Eclipse,并利用其扩展机制来添加提供附加功能的插件。核心版本已经包含数百个数据集成模块(文件I / O,支持所有通用JDBC的通用数据库管理系统的数据库节点),数据转换(过滤器,转换器,组合器)以及常用的数据分析和可视化方法。使用免费的Report Designer扩展,KNIME工作流可用作数据集,以创建可导出为doc,ppt,xls,pdf等文档格式的报告模板。

KNIME的其他功能有:

KNIME核心架构允许处理仅受可用硬盘空间限制的大数据量(大多数其他开源数据分析工具在主存储器中工作,因此仅限于可用RAM)。例如KNIME可以分析3亿个客户地址,2000万个细胞图像和1000万个分子结构。

额外的插件允许整合文本挖掘,图像挖掘以及时间序列分析的方法。

KNIME集成了各种其他的开源项目,例如从机器学习算法的Weka,统计包R项目,以及LIBSVM,JFreeChart的,ImageJ的和化学开发工具包.
1.KNIME分析平台,KNIME®Analytics Platform是面向数据驱动创新的领先开放解决方案

3.官方概念

KNIME Analytics Platform拥有超过1000个模块,数百个即可运行的示例,全面的集成工具,以及最广泛的高级算法选择,是任何数据科学家的完美工具箱。在不受限制的开放源代码的稳定的过程是您的护照给全球数据科学家社区,他们的专业知识和积极的贡献。

全功能,无限制,开源和免费的KNIME分析平台是释放单个数据科学家潜力的完美环境。当您准备好将分析提升到一个新的水平时,KNIME软件将这些功能扩展到商业扩展,以增强协作,性能和生产力。无论您的数据需要什么,KNIME商业软件都可以带你到那里

4.产品系列

是从小型工作组扩展到全球企业的。

KNIME TeamSpace:
使组能够共享数据,节点和工作流。

KNIME Server Lite:
在TeamSpace上构建以添加身份验证和用户权限,远程和计划执行。

KNIME WebPortal:
在Web浏览器中扩展具有发布和工作流访问的服务器精简版。

KNIME服务器:
我们的旗舰协作产品,添加Web服务,工作流版本控制和商业支持以上列出的所有功能。

KNIME云服务器:
将KNIME服务器带到云端的功能,无需内部部署的安装或维护。


二、安装及界面

安装

KNIME为免费开源且功能强大的数据分析平台软件,所以可以在官网下载最新或者稳定版本安装,可以选择不同的铲平安装,只选择KNIME分析平台或者KNIME分析平台及基本插件工具(约1.9G)
注:下载安装时需要首先注册登录

2.界面介绍

作者使用的软件是完整版分析平台和所有分析插件工具,界面为英文

软件界面:

1.菜单栏

这里写图片描述

Edit |

这里写图片描述

View |

这里写图片描述

Help |

这里写图片描述

2.工具栏
新建 | 保存 | 撤销 | 重做 | 节点 | 运行 | 等
(基本便捷的操作工具,可以在菜单栏中找到)

3.KNIME Explorer
EXAMPLES | LOCAL
(树状项目文件浏览器)

这里写图片描述

4.Workflow Coach
File Read | Joiner | Reference Rew Filter | Cell Replacer等

这里写图片描述

5.Node Repository
IO | Manipulation | View | Analytics | Database | Other Data Types | Structured Data | Scripting 等16类
(Node节点,分析的数据结构和算法都属于节点,每个节点都有属于自己独特而丰富的属性,该Repository 以树状结构,下面有上千种用于分析的节点)

这里写图片描述

由于算法和数据的导入存储转变等分析工具齐全,所以节点过多不容易一一列举,有时间我会做成思维导图用MindMap或MindManage等做成可缩放树状列举,并查找核对为中文科学术语和具体理论。

6.WorkSpace
项目节点工作空间

放置节点并对齐单个及相互之间进行合理操作,使得数据处理有条理,便于分析逻辑性和数据操作性增强,且每个节点的算法效率提高。

双击节点或者右击选择config配置数据,可以对该节点所存储和处理的数据进行属性和分析方法操作

每个节点下边有三个状态指示灯,无数据时第一个亮红色,刚接入数据时第二个亮为黄色,运行时若正常则第三个亮为绿色,简单地记为路灯表示该节点中数据所处的状态。

这里写图片描述

8.Outline
工作空间概览图

可以实时知道所有节点的位置,尽管在工作空间被遮住或者隐藏

这里写图片描述

9.Console
控制台

这里写图片描述

显示所有操作的状态情况
可以在工作空间对节点操作的过程中清晰每步操作的真实过程和结果反馈

10Node Description
节点描述

对选中的节点的属性和使用情况作简单明了的描述

这里写图片描述

——imbenben

0 0
原创粉丝点击