Titanic
来源:互联网 发布:虚拟云桌面软件 编辑:程序博客网 时间:2024/04/27 03:47
pandas.read_csv参数
header 指定行数用来作为列名
dtype : Type name or dict of column -> type, default None
每列数据的数据类型。例如 {‘a’: np.float64, ‘b’: np.int32}
dataframe 参数
describe()函数对于数据的快速统计汇总
a.describe()对每一列数据进行统计,包括计数,均值,std,各个分位数等。
统计某一列x中各个值出现的次数:a[‘x’].value_counts();
plot kind = kde
密度图:与直方图相关的一种类型图,是通过计算“可能会产生观测数据的连续概率分布的估计”而产生的
groupby
根据所提供的一个或多个键被拆分为多组
以无索引的形式返回聚合数据
一般情况下,聚合数据都需要唯一的分组键组成的索引,但也可以通过向groupby传入as_index=False以禁用该功能
loc 通过标签选择
fillna() 填充缺失值
cut函数和qcut函数:
可以将一些离散值分箱,cut函数用的是数值区间将数值分箱,qcut用的是分位数。
cut用在长度相等的桶,qcut用在大小相等的桶。
pandas用isnull()和notnull()函数来判断缺失情况
numpy.random.randint()
numpy.random.randint(low,high=None,size=None,dtype)
生成在半开半闭区间[low,high)上离散均匀分布的整数值
numpy.isnan(array) 计算各元素是否为NaN
正则表达式
re.search会在给定字符串中寻找第一个匹配给定正则表达式的子字符串。
函数的返回值:如果查找到则返回查找到的值,否则返回为None
apply 函数
pd.crosstab 交叉表
drop 删除pandas DataFrame的某一/几列:
StratifiedShuffleSplit(n_splits=10,test_size=None,train_size=None, random_state=None)
参数 n_splits是将训练数据分成train/test对的组数,可根据需要进行设置,默认为10
参数test_size和train_size是用来设置train/test对中train和test所占的比例。例如:
1.提供10个数据num进行训练和测试集划分
2.设置train_size=0.8 test_size=0.2
3.train_num=num*train_size=8 test_num=num*test_size=2
4.即10个数据,进行划分以后8个是训练数据,2个是测试数据
参数 random_state控制是将样本随机打乱
from sklearn.model_selection import StratifiedShuffleSplitimport numpy as npX = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2],[3, 4], [1, 2], [3, 4]])#训练数据集8*2y = np.array([0, 0, 1, 1,0,0,1,1])#类别数据集8*1ss=StratifiedShuffleSplit(n_splits=5,test_size=0.25,train_size=0.75,random_state=0)#分成5组,测试比例为0.25,训练比例是0.75for train_index, test_index in ss.split(X, y): print("TRAIN:", train_index, "TEST:", test_index)#获得索引值 X_train, X_test = X[train_index], X[test_index]#训练集对应的值 y_train, y_test = y[train_index], y[test_index]#类别集对应的值
Seaborn是一种基于matplotlib的图形可视化python libraty
http://blog.csdn.net/qq_34264472/article/details/53814653
heatmap 热点图
plt.figure() :自定义画布大小
reshape(-1, 1)
-1是模糊控制的意思 比如人reshape(-1,2)固定2列 多少行不知道
- Titanic
- POJ2354-Titanic
- titanic prediction
- 【kaggle】Titanic
- Kaggle: Titanic
- kaggle:titanic
- titanic+tensorflow
- kaggle-Titanic
- the lose of Titanic
- 重看《Titanic》
- POJ 2354 Titanic
- poj 2354 Titanic
- Ural 1030. Titanic
- Titanic : ML from Disaster
- POJ 2354 Titanic
- poj2354——Titanic
- Titanic Kaggle 竞赛系列
- UVA_11380_Down Went The Titanic
- 全资被收的大麦网 联动虾米音乐拉动阿里大文娱引擎
- 传三星虚拟助手Bixby将延迟推出,可支持非旗舰手机
- C语言数据结构顺序存储字符串
- Shader效果之波涛汹涌
- python记录仪_在2048中学习到的函数
- Titanic
- ARM推全新DynamIQ技术,主打人工智能
- 坚果智能影院发布新品 J6,长方形复古外观,预售价 4699元
- 红色 iPhone 7 特别版来了!但中国版却少了一些东西
- 今天我在Codewars做的第一道题
- Python学习教程(二)——序列之列表和元组
- 活动——启动活动的最佳写法
- elasticSearch集群安装部署
- Unity粒子特效的缩放与加(减)速