美国各州人口数据分析

来源:互联网 发布:最新淘宝助理下载 编辑:程序博客网 时间:2024/04/27 20:20

1.导入模块

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame

2.读取数据

#本地数据abb = pd.read_csv('./data/state-abbrevs.csv')areas = pd.read_csv('./data/state-areas.csv')pop = pd.read_csv('./data/state-population.csv')

3.合并人口数据表(pop)和地区简写表(abb)

# 合并方式how:inner、outer、left、right# left_on、right_on:左右分别以某一列合并(没有相同的列标签,但是内容是一样的)# on:以某一列合并(有相同的列标签)# left_index、right_index:使用索引参与合并pop_abb = pd.merge(pop,abb,                   left_on='state/region',                   right_on='abbreviation',                   how='outer')

4.删除多余的列‘abbreviation’

axis=1 or axis=’columns’ 删除列
axis=0 or axis=’index’ 删除行

pop_abb = pop_abb.drop('abbreviation',axis=1)

5.查看缺失数据

isnull()、notnull()
any()、all() 存在、全部

#找出存在数据缺失的列pop_abb.isnull().any()#在存在数据缺失的列area(sq.mi)中,找出是空值的行area_list = pop_abb_area['area (sq. mi)'].isnull()

6.删除存在空值的行

#找出表中area(sq.mi)列是空值的行的行索引drop_index = pop_abb_area[area_list].index# drop函数中的inplace参数 #True:修改被操作数据的结构  #Fase:默认值,不修改原始数据,生成新数据pop_abb_area_1 = pop_abb_area.drop(labels=drop_index,axis=0)
原创粉丝点击