如何学习大数据 以及大数据解决的问题

来源:互联网 发布:java的volatile 编辑:程序博客网 时间:2024/04/30 01:55
1.数据的来源多样性。例如关系数据库+文本+excel等


2.数据量大。TB级别的数据。


3.业务应用领域。实时性高与实时性不高的应用。




学习大数据应该就是要解决上述三个技术问题。


针对第一个问题,就是ETL技术-数据的抽取,清洗,加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据,需要抽取一些客户的基本信息。上万的文件,多种数据库,每个数据库有很多节点等,这些问题如何解决。第二是时间问题,如果这个ETL过长需要半个月时间,那么就没有意义的。
针对第二个问题,数据如何存储,如何查询。TB级的数据如何存储,如何查询,面对亿级别的数据集合,如何提升查询速度。
针对第三个问题,实时分析系统和非实时分析系统。实时分析系统我们如何解决在海量的数据中,及时根据数据分析模型,得出分析报告。非实时系统我们技术要求可能会低些。
0 0
原创粉丝点击