大数据解决思想

来源:互联网 发布:深圳软件大厦 编辑:程序博客网 时间:2024/05/06 04:21

       目前大数据,AI,机器学习这么热,那我们也要跟紧时代的脚步。记录下大数据学习之旅。

       大数据为什么能做到普通应用做不到的计算,除了大家熟知的分布式计算外(分治思想),还有就是数据的存储格式,普通的关系型数据型数据库都是采用行存储,而OLAP框架中常会采用列式存储来提高扫描效率,另外还有个技术手段就是内存计算了。传统的数据读写都是在磁盘上操作,相对内存里计算效率差了几个量级。(这个就要求高内存的硬件配置了,联机分析处理OLAP(On-Line Analytical Processing)是指基于数据仓库的在线多维统计分析)。

       下面再提几个大数据概念。大数据实践是离不开的ETLExtract Transform Load,我们可以这么理解,抽取(E)这一步是从我们的mysql,mongo中获取的原始数据结构,大数据中叫操作数据存储ODS(Operational Data Store),接下来转换(T)这一步,就是将我们ODS中的数据结构重新包装作为一种中间结构,称作概念数据模型CDM (concept data model),最后,我们可以利用CDM中构造好的中间结构根据具体业务需求,装载(T)成最终的业务结构。称作应用数据层ADS (Application data store)。当然CDM做为最终的业务模型也是正常的。

       后面也会在补充些大数据相关技术文章。

原创粉丝点击