Titanic

来源:互联网 发布:虚拟云桌面软件 编辑:程序博客网 时间:2024/04/27 03:47

pandas.read_csv参数
header 指定行数用来作为列名
dtype : Type name or dict of column -> type, default None
每列数据的数据类型。例如 {‘a’: np.float64, ‘b’: np.int32}

dataframe 参数

describe()函数对于数据的快速统计汇总
a.describe()对每一列数据进行统计,包括计数,均值,std,各个分位数等。

统计某一列x中各个值出现的次数:a[‘x’].value_counts();

plot kind = kde
密度图:与直方图相关的一种类型图,是通过计算“可能会产生观测数据的连续概率分布的估计”而产生的

groupby
根据所提供的一个或多个键被拆分为多组
以无索引的形式返回聚合数据
一般情况下,聚合数据都需要唯一的分组键组成的索引,但也可以通过向groupby传入as_index=False以禁用该功能

loc 通过标签选择

fillna() 填充缺失值

cut函数和qcut函数:
可以将一些离散值分箱,cut函数用的是数值区间将数值分箱,qcut用的是分位数。
cut用在长度相等的桶,qcut用在大小相等的桶。

pandas用isnull()和notnull()函数来判断缺失情况

numpy.random.randint()
numpy.random.randint(low,high=None,size=None,dtype)
生成在半开半闭区间[low,high)上离散均匀分布的整数值

numpy.isnan(array) 计算各元素是否为NaN

正则表达式
re.search会在给定字符串中寻找第一个匹配给定正则表达式的子字符串。
函数的返回值:如果查找到则返回查找到的值,否则返回为None

apply 函数
pd.crosstab 交叉表

drop 删除pandas DataFrame的某一/几列:

StratifiedShuffleSplit(n_splits=10,test_size=None,train_size=None, random_state=None)
参数 n_splits是将训练数据分成train/test对的组数,可根据需要进行设置,默认为10

参数test_size和train_size是用来设置train/test对中train和test所占的比例。例如:
1.提供10个数据num进行训练和测试集划分
2.设置train_size=0.8 test_size=0.2
3.train_num=num*train_size=8 test_num=num*test_size=2
4.即10个数据,进行划分以后8个是训练数据,2个是测试数据
参数 random_state控制是将样本随机打乱

from sklearn.model_selection import StratifiedShuffleSplitimport numpy as npX = np.array([[1, 2], [3, 4], [1, 2], [3, 4],              [1, 2],[3, 4], [1, 2], [3, 4]])#训练数据集8*2y = np.array([0, 0, 1, 1,0,0,1,1])#类别数据集8*1ss=StratifiedShuffleSplit(n_splits=5,test_size=0.25,train_size=0.75,random_state=0)#分成5组,测试比例为0.25,训练比例是0.75for train_index, test_index in ss.split(X, y):   print("TRAIN:", train_index, "TEST:", test_index)#获得索引值   X_train, X_test = X[train_index], X[test_index]#训练集对应的值   y_train, y_test = y[train_index], y[test_index]#类别集对应的值

这里写图片描述

Seaborn是一种基于matplotlib的图形可视化python libraty
http://blog.csdn.net/qq_34264472/article/details/53814653
heatmap 热点图

plt.figure() :自定义画布大小

reshape(-1, 1)
-1是模糊控制的意思 比如人reshape(-1,2)固定2列 多少行不知道

原创粉丝点击