《从非结构化数据到大数据》有感

来源：互联网发布：灯光设计软件编辑：程序博客网时间：2024/05/18 22:47

看到一篇文章，是一位Orcale专家，对当下非结构化数据存贮和大数据处理的方案介绍（其实也是为了推广公司产品），个人觉得对大数据这一块认识更深了，受益匪浅啊。

下面讲讲个人理解：

自从互联网普及进千家万户后，各个公共系统和个人都在不停的产生数据。对个人来说，手机的通讯记录、购物记录、使用软件情况、微博、说说等，都是被记录存贮的数据。对于公共机构来说，各个公司的运营记录、地铁进出记录、买票记录也是数据、上传的视频、游戏记录。这些数据格式不一，有文件、图片、音频、视频、文档等。

大数据至少有4个特点：1、来源广泛，格式多样 2、产生速度非常快，可能成指数级增长 3、价值密度低，单条记录价值低，单个的信息可能没多少用，不过巨大的数量能提出产生可观的利益 4、数量巨大

为了从大量的垃圾数据中，提取分析出有用的信息，就需要BI商业智能，从企业的运营资料中，分析出方案，提供决策，给企业管理层提供战略建议。而开源项目Hadoop，则是一个分布式的文件系统，一个分布式的并行计算平台，离线延时处理。可以用Hadoop来实现云计算。

既然数据量非常大，并且现在上网带宽也提升起来，用户对于获取信息的速度，要求就高起来。而传统的RDBMS关系型数据库，擅长处理结构化数据，对于结构纷繁多样的非结构数据，就不太灵活了。对应着需求在变化，NoSql也逐渐人气高起来。NoSql可以提供实时的、灵活的、非机构数据快速处理，可以满足更快速、更零碎化的用户需求。

现在大数据整个应用流程可以分为这四步：一、收集（个人设备产生的信息、企业运行记录、日志和监控设备等）二、存储（支持各种格式大批量数据导入、及时灵活的数据查询）三、分析（Storm、Hadoop等大数据计算框架，Docker等容器）、BI（商业智能）四、决策（通过分析，为最终决策提供建议）

其中，我印象最深的是——大数据的价值密度低特性。因为以前我有疑问，大数据里面有很多垃圾数据，为什么还要进行大数据收集分析呢？看了专家（不是“砖家”哦）的报告，我恍然大悟，虽然大数据里面大部分是垃圾数据（无法利用），不过大量的数据能提取分析出，一定的规则行为，这些规则行为才是宝贵的信息！例如当初沃尔玛的“尿布和啤酒”的案例，就是商业智能的典型案例。

0 0