签到

来源:互联网 发布:java实现rpc 编辑:程序博客网 时间:2024/04/25 16:22

今天看了https://www.kaggle.com/dgawlik/house-prices-advanced-regression-techniques/house-prices-eda。

一个有趣的技巧可以用来分开continuous variables和categorical variables是:

quantitative = [f for f in train.columns if train.dtypes[f] != 'object']quantitative.remove('SalePrice')quantitative.remove('Id')qualitative = [f for f in train.columns if train.dtypes[f] == 'object']

原来从来没有想过可以这样分开!

昨天还说到了如何评价categorical variables对continuous variables的影响(使用anova),今天这篇文章里面就使用了anova来评价。

https://www.kaggle.com/pmarcelino/house-prices-advanced-regression-techniques/comprehensive-data-exploration-with-python文章里面作者直接使用了pearson对所有的变量(categorical and continuous variables)计算了相关性。这样计算对categorical variables可能有问题。虽然没有看源代码,但应该是把categorical varialbes当成了continuous variables进行计算了。

下次再签到用markdown写。顺道学习下markdown。



0 0
原创粉丝点击