Pandas学习(一)——数据的导入
来源:互联网 发布:网络教育毕业证有用吗 编辑:程序博客网 时间:2024/06/05 14:56
欢迎加入python学习交流群 667279387
学习笔记汇总
Pandas学习(一)–数据的导入
pandas学习(二)–双色球数据分析
pandas学习(三)–NAB球员薪资分析
pandas学习(四)–数据的归一化
本文所有的环境:python :3.5 pandas:0.19.2 numpy:1.12.1,sqlalchemy 1.1.9 如果你的环境和这样不一样可能会有 细微差别。
pandas支持的数据格式
pandas作为一个强大的数据处理包,支持比较多的数据处理格式,下面是一些常见格式数据的读取方法,更多请参考:链接
前面两个一般用的比较多。
常见格式读取示例
read_table举例
example.csv是一个用逗号隔开的数据格式。所以可以用read_table读取,需要指定间隔符为逗号。
import pandas as pddata_csv = pd.read_table('example.csv',sep=',')print("data_csv:")print(data_csv)
a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 foo
但是有时隔符是不定个数的空格,这时可以用正则表达式。
import pandas as pddata_txt = pd.read_table('example.txt',sep='\s+')print("data_txt:")print(data_txt)
此处由于数据中列名比数据列少1,read_table会推断第一行为列名。
A B Caaa -0.264438 -1.026059 -0.619500bbb 0.927272 0.302904 -0.032399ccc -0.264273 -0.386314 -0.217601ddd -0.871858 -0.348382 1.100491
read_csv举例
import pandas as pddata_csv2 = pd.read_csv('example.csv')print("data_csv2:")print(data_csv2)
a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 foo
read_exel示例
import pandas as pddata_xlsx = pd.read_excel('example.xlsx')print("data_xlsx:")print(data_xlsx)
默认是读取第一个 sheet表格的,如果要制定读取sheet表格则需要指定 sheetname参数
data_xlsx2 = pd.read_excel('example.xlsx',sheetname="Sheet2")print("data_xlsx2:")print(data_xlsx2)
a b c d message0 11 12 13 4 hello1 15 16 17 18 world2 19 20 21 12 foo
更多参数可以参考官方手册
read_json示例
data_json = pd.read_json('example.json')print(data_json)
直接打开json文件的内容如下:
[{"a": 1, "b": 2, "c": 3}, {"a": 4, "b": 5, "c": 6}, {"a": 7, "b": 8, "c": 9}]
读取后 输出的格式如下
a b c0 1 2 31 4 5 62 7 8 9
read_sql、read_sql_table和read_sql_query示例
import pymysqlimport pandas as pdcon = pymysql.connect(host="127.0.0.1",user="root",password="password",db="world")data_sql=pd.read_sql("select * from city limit 10",con)print(data_sql)
数据库用的是mysql,数据是里面自带的测试数据。
ID Name CountryCode District Population0 1 Kabul AFG Kabol 17800001 2 Qandahar AFG Qandahar 2375002 3 Herat AFG Herat 1868003 4 Mazar-e-Sharif AFG Balkh 1278004 5 Amsterdam NLD Noord-Holland 731200
在使用read_sql_table和read_sql_query时需要使用sqlalchemy对数据库进行连接。这里仍然使用mysql为例,其他数据库的链接方式有细微差别。
import pandas as pdimport pymysqlfrom sqlalchemy import create_enginecon = create_engine('mysql+pymysql://root:password@localhost:3306/world')data_sql2 = pd.read_sql_table("city", con)print(data_sql2)data_sql3 = pd.read_sql_query("select * from city limit 5", con)print(data_sql3)
read_html示例
能够读取带有table标签的网页中的表格。
import pandas as pddata = pd.DataFrame()url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']for i in range(2, 13): url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i url_list.append(url)for url in url_list: data = data.append(pd.read_html(url), ignore_index=True)data = data[[x.startswith('$') for x in data[3]]]data.to_csv('NAB_salaries.csv',header=['RK','NAME','TEAM','SALARY'], index=False)
获取的数据详情请见pandas学习(三)–NAB球员薪资分析
本文示例代码和文件下载地址:链接
提取密码:l5wo
欢迎python爱好者加入:学习交流群 667279387
1 0
- Pandas学习(一)——数据的导入
- pandas的基本用法(五)——导入导出数据
- pandas学习(一)
- pandas学习(一)
- pandas 学习(一)
- pandas学习(四)--数据的归一化
- Python操作Mysql数据库入门——数据导入pandas(数据分析准备)
- Pandas学习笔记一(Pandas数据结构)
- pandas 学习(一) —— data frame
- Pandas学习(二)——双色球开奖数据分析
- pandas的简单应用与数据导入
- Python数据分析之pandas学习(一)
- Python机器学习(一)数据分析工具Pandas
- python数据分析pandas包入门学习(一)pandas数据结构介绍
- Python数据挖掘学习03--pandas模块数据的导入实战
- Pandas学习笔记(一)
- pandas常用的数据分析函数(一)
- pandas入门——数据的读取
- Android、Java单例看这里(常用的单例模式对比)
- HDFS配额设置和测试
- SQLite复杂表的更新方式
- String写出到文件
- 数组
- Pandas学习(一)——数据的导入
- 企业级架构是什么?
- JAVA读写EXCEL
- Windows下安装Mongodb
- 数据结构(二)
- 20170424模拟赛
- python中的tuples
- Java 爬虫工具Jsoup解析
- 服务器上启动多个oracle实例