数据科学课程笔记2 --- 发展现状
来源:互联网 发布:乒乓球底板 知乎 编辑:程序博客网 时间:2024/04/29 14:07
1. 大数据与数据库的比较
· 数据规模:数据库通常以MB为基本单位,而大数据则常常以GB,甚至是TB、PB作为基本处理单位
· 数据类型:数据库中的数据种类单一,数据又以结构化数据为主。大数据中,数据的种类繁多,包含着结构化、半结构化以及非结构化的数据,而且半结构化和非结构化数据所占份额大
· 模式(Schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。大数据背景下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断地演变之中。
· 处理对象:传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题
· 处理工具:数据库中几种基本的工具就可以应对,即 One size fits all。而在大数据中,不可能存在一种工具能够处理所有的数据,即 No size fits all。
2. 大数据对数据挖掘的挑战
· 数据量大并不一定意味着数据价值增加,相反这往往意味着数据噪音的增多。因此在数据分析之前必须进行数据清洗等预处理工作。大批量的数据清理是大数据对数据挖掘的挑战之一。
· 大数据时代的算法需要进行调整
1.准确率不再是大数据的最大指标
大数据的应用常常要具有实时性的特点,算法的准确率不再是大数据应用的最主要指标。很多场景中算法需要在处理的实时性和准确性之间取得一个平衡。
2. 算法必须作出调整以适应大数据的处理工具
3. 选择算法处理大数据时必须谨慎
当数据量增长到一定规模以后,可以从小量数据中挖掘出有效信息的算法不一定适用于大数据
· 数据结果好坏的衡量
得到分析结果并不难,但是结果好坏的衡量却是大数据时代数据分析的新挑战。大数据时代的数据量大、类型庞杂,进行分析的时候往往对整个数据的分布特点掌握的不太清楚。这会导致最后在设计衡量的方法以及指标的时候遇到诸多困难。
3.经济利益成为研究大数据挖掘的主要推动力
- 数据科学课程笔记2 --- 发展现状
- 数据科学课程笔记1 --- 导论
- 模式识别科学发展与现状(1.介绍)
- 模式识别科学发展与现状(3.成就)
- 模式识别科学发展与现状(4.展望)
- 模式识别科学发展与现状(5.挑战)
- 模式识别科学发展与现状(6.结束语)
- 《嵌入式发展现状》笔记
- 数据科学课程笔记3 --- 数据与数据特征
- 数据科学课程笔记4 --- 数据工程与技术
- 模式识别科学发展与现状(2.模式识别四种方法)
- 追本溯源 解析“大数据生态环境”发展现状
- 约翰霍普金斯大学数据科学系列课程
- 厦门大学计算机系研究生课程《数据科学》课程主页
- 数据科学工具箱week1笔记
- 数据科学工具箱week2笔记
- 数据科学工具箱week3笔记
- 数据科学实战笔记1
- python016 -- 多进程和多线程
- 有了ajax,没有实现不了的前台页面功能
- 在Qt的dialog中内嵌一个dialog
- Android颜色代码
- MATLAB中自带遗传算法函数GA的用法
- 数据科学课程笔记2 --- 发展现状
- 课堂笔记_阴影生成
- 51Nod1222:最小公倍数计数 (莫比乌斯反演)
- 自学Java之Java类库(在用户界面上排列组件)(011day)
- 单目视觉ADAS的技术与体验升级之路|硬创公开课
- mysql大小写敏感
- vmware workstation 12 实现虚拟机克隆,并修改相关配置
- Go实战--go中使用hmac sha256(The way to go)
- linux vim 快捷键