利用Pthon进行数据分析-数据规划化
来源:互联网 发布:罗兰电子鼓软件 编辑:程序博客网 时间:2024/06/01 15:45
1. 数据合并
( 1 ) 内连接, 外连接, 左连接, 右连接, 外连接
1 ) 内连接
内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行。例如,检索 students和courses表中学生标识号相同的所有行。
2 ) 外连接
( 2 ) DataFrame 合并
使用merge函数进行合并
没有指定要用那个列进行连接,merge就会将列名相同的列当做键. 也可以显示指定
pd.merge(df1, df2, on='key')
如果两个对象的列名不同, 也可以分别进行知道那个
pd.merge(df3, df4, left_on='lkey', right_on='rkey')
2 ) 连接方式
merge默认情况下是内连接, 结果中的键是交集,其他方式还有 "left", "right" 以及 "outer" . 外连接求取的是键的并集, 组合了左连接和右连接的效果.
指定连接方式:
pd.merge(df1, df2, how='outer')
( 3 ) merge参数
left 参与合并的左侧DataFrame
right 参与合并的右侧DataFrame
how "inner", "outer", "left", "right" 其中之一, 默认为" inner"
on 用于连接的列名,必须存在左右两个DataFrame对象中. 如果未指定, 且其他连接键也未指定,则以left和right列名的交集作 为连接键
left_on 左侧DataFrame中用作连接键的列
right_on 右侧DataFrame中用作连接键的列
left_index 将左侧的行索引用作其连接键
right_index 类似于left_index
sort 类似连接键对合并后的数据进行排序, 默认为True. 有时在处理大数据集时, 禁用该选吸纳个可获得更好的性能.
suffixes 字符串值元组, 用于追加到重叠列名的末尾, 默认为('_x','_y"). 例如, 如果左右两个DataFrame对象都有 "data", 则结果中 就会出现 "data_x" 和 "data_y"
copy 设置为False, 可以在某些特殊情况下避免将数据复制到结果数据结构中. 默认总是复制.
阅读全文
0 0
- 利用Pthon进行数据分析-数据规划化
- 利用Hive进行数据分析
- 利用Hive进行数据分析
- 利用python进行数据分析-数据规整化1
- 利用python进行数据分析-数据规整化2
- 利用python进行数据分析-数据规整化3
- 利用python进行数据分析(五):数据规整化
- pthon数据挖掘与分析实战【笔记】-第四章 数据预处理4.1数据清洗
- 利用WireShark抓包进行数据分析
- 利用Python进行数据分析--时间序列
- 利用Python 的 Pandas进行数据分析
- 《利用python 进行数据分析》要点记录
- 利用python进行数据分析笔记
- 利用Python进行数据分析笔记(一
- 利用python进行数据分析随笔小记
- 《利用Python 进行数据分析》 - 笔记(2)
- 《利用Python 进行数据分析》 - 笔记(3)
- 《利用Python 进行数据分析》 - 笔记(4)
- redhat EL6.5安装mysql5.7及常见问题
- 高德地图
- 关于 VUE的el-select 初始值设置问题
- 面试题62. 序列化二叉树
- [Command]Linux 账号管理
- 利用Pthon进行数据分析-数据规划化
- UFLDL教程:Exercise:Convolution and Pooling
- JSONObject排序问题
- Android中子线程真的不能更新UI吗?
- SAP 系统 MIRO 时替代 Recon. Account 的解决方案
- vue之watch用法
- 线程
- sklearn数据集随机切分(train_test_split)
- CentOS下配置完全分布式hadoop2.6.0-cdh5.6.0(1)