北京雾霾数据分析

来源:互联网 发布:Java 动态条件计算 编辑:程序博客网 时间:2024/05/01 09:32

2016年北京雾霾数据初步分析

最近拿到了美国人收集的北京PM2.5指数数据,数据是从2008年到2016年每小时的pm2.5浓度值。这学期零零散散学习了一些python下pandas的数据分析,正好可以用来试试手,试着分析一下雾霾数据,在试着做做预测。

首先,先将数据怼进来,然后做一下简单处理,除去异常值(小于0)的数值。

import pandas as pdDataSet2016 = pd.read_csv('G:/数据集/北京雾霾数据08-16/Beijing_2016_HourlyPM25_created20170103.csv')DataSet2016_clear = DataSet2016[DataSet2016['Value']>=0]ValueList = DataSet2016_clear['Value']ValueList.index = DataSet2016_clear['Date (LST)']ValueList.plot()DataSet2016_clear['Date (LST)'] = pd.to_datetime(DataSet2016_clear['Date (LST)'])DataSet2016_clear = DataSet2016_clear.set_index(['Date (LST)'])


可以看到,除了个别天爆表,其他的还都在可控范围内嘛。。。

下面是按月,天,小时,星期平均分析

#按月分析Data_Monthly = DataSet2016_clear.groupby(['Month']).mean()Value_Monthly = Data_Monthly['Value']Value_Monthly.plot(kind = 'bar')


#按天分析Data_Daily = DataSet2016_clear.groupby(['Day']).mean()Value_Daily = Data_Daily['Value']Value_Daily.plot(kind = 'bar')#按小时分析Data_Hourly = DataSet2016_clear.groupby(['Hour']).mean()Value_Hour = Data_Hourly['Value']Value_Hour.plot(kind = 'bar')#按星期分析DataSet2016_clear['Week'] = DataSet2016_clear.index.weekdayData_WeekDay = DataSet2016_clear.groupby(['Week']).mean()Value_weekday = Data_WeekDay['Value']Value_weekday.plot(kind = 'bar')


可见,雾霾指数还是跟星期几有较强关系


0 0
原创粉丝点击