数据整理
来源:互联网 发布:洛阳智网网络和恒凯 编辑:程序博客网 时间:2024/05/17 08:45
1.收集数据
- 根据数据来源及其格式,收集数据的步骤各不相同
- 高级收集过程:获取数据(从互联网下载文件、抓取网页、查询 API 等),然后将该数据导入编程环境(例如 Jupyter Notebook)。
2.评估数据
评估数据的目的包括:
- 质量:内容问题。低质量数据也称为脏数据。
- 整洁度:使分析难易进行的问题。不整洁数据也称为杂乱数据。
- 条理数据的要求包括:
- 每个变量成一列。
- 每个观察结果成一行。
- 每个观察结果成一行。
- 评估类型:
- 目测评估:使用你喜欢的软件应用程序(Google 表格、Excel、文本编辑器等)观察数据。
- 编程评估:使用代码来查看数据的特定部分和摘要(例如 pandas 的 head、tail 和 info方法)。
3.清洗数据
- 清洗之前,请务必备份原始数据!重点内容
- 清洗类型:
- 手动(不推荐,除非问题是一次性出现)
- 编程
- 编程数据清洗过程:
- 定义:将评估转换为定义的清洗任务。这些定义也可以作为指令列表,以便其他人(或你自己将来)可以回顾和重现自己的工作。
- 代码:将这些定义转换为代码并运行。
- 练习:可视上或使用代码练习数据集,确保清洗操作可顺序进行。
4.对数据重新评估与迭代清洗数据
- 清洗后,如有必要,请重新评估和迭代任何数据整理步骤。
5.保存数据
- 如果将来使用,可将数据存储到文件或数据库中。
阅读全文
0 0
- 数据整理
- 整理数据
- 整理数据
- 数据整理
- 数据讲故事,数据资源整理
- 民生银行年报数据整理
- 数据加密简介(整理)
- SQL SERVERS数据整理
- 海量数据整理
- BW:数据字典 整理
- Cassandra的数据整理
- 垃圾数据的整理
- db2move 数据导出整理
- Oracle 数据导入整理
- 数据分析参考资料整理
- 计算日期数据整理
- BW:数据字典整理
- 自己整理的数据
- Delphi XE8环境下使用windows下API函数创建一个空白窗口
- 20171219
- POJ 2255 Tree Recovery(根据前中序遍历,求后序遍历)
- 2017 CCPC 秦皇岛 & ZOJ 3993
- 笔记-自编码器(Autoencoders)
- 数据整理
- 一张图认识安卓shape属性
- 一篇转自大神的关于23种设计模式的文档
- text mining and analytics学习笔记week2
- 自动调参(GridSearchCV)及数据降维(PCA)在人脸识别中的应用
- 使用myecplise连接sqlserver数据库的所见异常及实现细则
- 真正的高手很爱写文章
- 城堡小游戏
- vmware的三种网络模式