数据科学课程笔记2 --- 发展现状

来源:互联网 发布:乒乓球底板 知乎 编辑:程序博客网 时间:2024/04/29 14:07

1. 大数据与数据库的比较

· 数据规模:数据库通常以MB为基本单位,而大数据则常常以GB,甚至是TB、PB作为基本处理单位

· 数据类型:数据库中的数据种类单一,数据又以结构化数据为主。大数据中,数据的种类繁多,包含着结构化、半结构化以及非结构化的数据,而且半结构化和非结构化数据所占份额大

· 模式(Schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。大数据背景下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断地演变之中。

· 处理对象:传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题

· 处理工具:数据库中几种基本的工具就可以应对,即 One size fits all。而在大数据中,不可能存在一种工具能够处理所有的数据,即 No size fits all。


2. 大数据对数据挖掘的挑战

· 数据量大并不一定意味着数据价值增加,相反这往往意味着数据噪音的增多。因此在数据分析之前必须进行数据清洗等预处理工作。大批量的数据清理是大数据对数据挖掘的挑战之一。

· 大数据时代的算法需要进行调整

 1.准确率不再是大数据的最大指标

大数据的应用常常要具有实时性的特点,算法的准确率不再是大数据应用的最主要指标。很多场景中算法需要在处理的实时性和准确性之间取得一个平衡。

 2. 算法必须作出调整以适应大数据的处理工具

 3. 选择算法处理大数据时必须谨慎

当数据量增长到一定规模以后,可以从小量数据中挖掘出有效信息的算法不一定适用于大数据

· 数据结果好坏的衡量

得到分析结果并不难,但是结果好坏的衡量却是大数据时代数据分析的新挑战。大数据时代的数据量大、类型庞杂,进行分析的时候往往对整个数据的分布特点掌握的不太清楚。这会导致最后在设计衡量的方法以及指标的时候遇到诸多困难。


3.经济利益成为研究大数据挖掘的主要推动力

原创粉丝点击