《从非结构化数据到大数据》有感

来源:互联网 发布:灯光设计软件 编辑:程序博客网 时间:2024/05/18 22:47

    看到一篇文章,是一位Orcale专家,对当下非结构化数据存贮和大数据处理的方案介绍(其实也是为了推广公司产品),个人觉得对大数据这一块认识更深了,受益匪浅啊。

下面讲讲个人理解:

    自从互联网普及进千家万户后,各个公共系统和个人都在不停的产生数据。对个人来说,手机的通讯记录、购物记录、使用软件情况、微博、说说等,都是被记录存贮的数据。对于公共机构来说,各个公司的运营记录、地铁进出记录、买票记录也是数据、上传的视频、游戏记录。这些数据格式不一,有文件、图片、音频、视频、文档等。

     大数据至少有4个特点:1、来源广泛,格式多样 2、产生速度非常快,可能成指数级增长 3、价值密度低,单条记录价值低,单个的信息可能没多少用,不过巨大的数量能提出产生可观的利益 4、数量巨大

       为了从大量的垃圾数据中,提取分析出有用的信息,就需要BI商业智能,从企业的运营资料中,分析出方案,提供决策,给企业管理层提供战略建议。而开源项目Hadoop,则是一个分布式的文件系统,一个分布式的并行计算平台,离线延时处理。可以用Hadoop来实现云计算。

     既然数据量非常大,并且现在上网带宽也提升起来,用户对于获取信息的速度,要求就高起来。而传统的RDBMS关系型数据库,擅长处理结构化数据,对于结构纷繁多样的非结构数据,就不太灵活了。对应着需求在变化,NoSql也逐渐人气高起来。NoSql可以提供实时的、灵活的、非机构数据快速处理,可以满足更快速、更零碎化的用户需求。

    现在大数据整个应用流程可以分为这四步:一、收集(个人设备产生的信息、企业运行记录、日志和监控设备等)二、存储(支持各种格式大批量数据导入、及时灵活的数据查询)三、分析(Storm、Hadoop等大数据计算框架,Docker等容器)、BI(商业智能)四、决策(通过分析,为最终决策提供建议)

   其中,我印象最深的是——大数据的价值密度低特性。因为以前我有疑问,大数据里面有很多垃圾数据,为什么还要进行大数据收集分析呢?看了专家(不是“砖家”哦)的报告,我恍然大悟,虽然大数据里面大部分是垃圾数据(无法利用),不过大量的数据能提取分析出,一定的规则行为,这些规则行为才是宝贵的信息!例如当初沃尔玛的“尿布和啤酒”的案例,就是商业智能的典型案例。

 

0 0
原创粉丝点击