data cleaning(数据清洗) 课程笔记
来源:互联网 发布:arduino软件下载 编辑:程序博客网 时间:2024/04/30 02:56
使用机器学习(ML), data mining 对数据进行分析之前, 需要使用大量的数据预处理工作。 因为没有干净的数据, 很难对数据进行更进一步的分析。
在这本课程中, 主要cover 如下几个内容:
(1)如何获取原始数据(raw data)
(2) 如何将这些具有噪声的raw data 变得更加的tidy, 以便为我们进一步的分析做准备。 有哪些data cleaning(数据清理的技术)
(3)使用工具R, 完成一些任务
Q: 在进行数据分析前, 我们希望的数据是什么样子的呢?
我们希望我们的数据如下图excel所示:
formated data:
(1)每一个行(row)是一个record
(2)每一列(column)代表一个variable。
这也是我们运用数据清洗等数据预处理技术之后, 希望产生的效果。但是我们实际中获取到的raw data 是千奇百怪的, 充满噪声的, 例如下面的形式:
或者:
等等, 不一而足。
那么数据在哪里呢?
可能在数据库中。 例如两个免费的数据库mysql, mangoDB等等。 我们可能从这些数据库中选取一些数据子集进行处理等等。或者数据来源于API, 调查, 网站上等等
本课程的主要任务如下:
红色的表示数据的预处理过程。 data analysis 是比较高级的任务。例如我们可以使用机器学习, 数据挖掘等知识去进行数据分析。
data commnication: 是分析之后, 如何去使用分析得到的结果了。
0 0
- data cleaning(数据清洗) 课程笔记
- data cleaning(数据清洗) 课程笔记
- 数据清洗(Data Cleaning)
- An Online Data Cleaning Method(一种在线数据清洗方法)
- An Online Data Cleaning Method(一种在线数据清洗方法)
- An Online Data Cleaning Method(一种在线数据清洗方法)
- An Online Data Cleaning Method(一种在线数据清洗方法)
- Data Analysis学习笔记 --- Python数据清洗处理时间数据
- Data Analysis学习笔记 --- Python数据清洗对数据分组
- Data Analysis学习笔记 --- python数据清洗对数据聚合
- Data Analysis学习笔记 --- Python数据清洗对字符串处理
- Data Analysis学习笔记 --- Python数据清洗正则处理字符串
- Data Analysis学习笔记 --- python数据清洗矢量处理字符串
- R Getting and Cleaning Data获取和清理数据
- 慕课网学习spark笔记之数据清洗
- pandas 学习笔记-- 数据清洗和转换
- 无监督对话数据清洗利器:Data Purification Framework
- Cleaning Data in Python
- maven
- hdu4821 字符串哈希
- android:id
- 辣妈萌宝面试心得体会
- uva 11556 - Best Compression Ever(水题)
- data cleaning(数据清洗) 课程笔记
- 用于浏览图片的Activity
- C中使用正则表达式
- 私有ip
- poj 2456 Aggressive cows(二分查找)
- 生成组合和排列方法总结
- hdu 2099整除的尾数
- ORACLE 使用DBMS_METADATA.GET_DDL获取DDL语句
- uva 11561 - Getting Gold(bfs)