条条大路通罗马- 数据分析的工具

来源:互联网 发布:java获取服务器外网ip 编辑:程序博客网 时间:2024/05/16 09:08

        数据分析的工具从商业化软件,开源软件不断的出现。尤其是架构在云上之后,数据统计的工具几乎数不胜数。工具多了,自然让人眼花缭乱,可是我们会忘了一些最基本的东西。本文试图做一个数据分析工具的回顾,看看数据分析工具的历史,现状和未来。

        数据统计分析,自然离不开最早的渊源,比如优生学,生物,政治,赌博等等。。这是老生常谈了,今天我们使用的很多计算机软件画图的时候,使用 plot就反映了这个情况。每个行业对数据统计的回顾都有其特点。我从心理测量的角度来回顾一下吧。


        要了解1800-1900-1940年代的统计思想和方法,自然离不开GPS,不是导航仪,是Glaton, Pearson, Spearman ,简单说就是这三个人开创了统计的最常用和原始的方法,比如Glaton的回归分析Regression,皮尔森的相关分析 R, Spearman的。。。这些仅仅代表了早期统计的常用描述指标。还有很多很多数学家、心理学家、统计学家为此做出了贡献。不过那个时候的数据分析工具是 纸笔。。您可能觉得很落后,但是再先进的工具也要遵循人的思维,有人来设计使用。所以,即使现在有很多运算非常快的工具,其基本思想还是离不开这些最最初的影响。

商业统计软件

SPSS

SAS

STAT

Matlab

Minitab

      这个名单可以之一列下去。。SPSS是很多大学要开的一门课,但是能够学完Amos 的学生不知道有多少?因为结构方程模型几乎囊括了很多统计模型。这些商业软件,大多需要购买年度使用许可,对于科研和大学来说,这是应该投入的地方。

开源或半开源的统计软件

R, R studio

Python

是两个常见可用于数据统计的软件了。


对于商业智能分析,因为需要数据的储存,展示和后期修改。

Oracle

Microsoft SQL Server

IBM-SPSS

Microsoft Power BI

SAP

Tableau

Informatica

等等数据的提取,处理和上传,以及数据仓库的建立等等就成了这些软件的战场了。


对于数据可视化的一些软件,其实以上所有软件都具有这些功能。但是网络环境下,比如在浏览器内使用的数据,则变成了云端的一些软件,比如微软的Azure, Cloudera等产品


而基于 javascript 的 D3, 和其他产品也非常色,我试用了一下产品,感觉每一种都有其特色和优劣之处。个人感觉如果熟悉r 的朋友,可以看看R studio 的Shiny.



Bokeh    interactive, browser-based visualization for big data, driven from Python and others  

Gephi Gephi is an interactive visualization and exploration platform for all kinds of networks and complex systems, dynamic and hierarchical graphs.
  • Runs on Windows, Linux and Mac OS X. Gephi is open-source and free


  • D3: D3.js is a JavaScript library for manipulating documents based on data. D3 helps you bring data to life using HTML, SVG, and CSS. D3’s emphasis on web standards gives you the full capabilities of modern browsers without tying yourself to a proprietary framework, combining powerful visualization components and a data-driven approach to DOM manipulation. 

  • http://nvd3.org/
  
  • Geogebra:Dynamic mathematics for learning and teaching 

  • Vincent


protovis


prefuse


vega


时间关系,第一篇文章先写道这里,稍后我做补充和修改。欢迎阅读!












0 0
原创粉丝点击