python机器学习day'5

来源:互联网 发布:制作视频的软件 编辑:程序博客网 时间:2024/06/05 20:57

决策树可以描述非线性分段函数关系以及完成多项特征的二分决策任务。模型在学习的时候考虑特征节点的选取顺序。

常用的度量方式包括信息熵和基尼不纯性。

然后发现了看的那一点点爬虫中一样的东西了。pandas

他有一个独有的dataframe格式,也是二维的,由索引和列,可以伸缩的异构数据表格。

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

然后进行特征的选择,感觉…是依靠建立在时代背景下的数理统计知识和经验来选择特征的?

这里有两个点第一次出现,如果不能舍弃的数据列中数据有丢失,需要补充数据。

使用平均数或者中位数都可以对模型偏离造成较小的影响。

之后又提到了集成分类,综合考量多个分类器的预测结果,从而作出决策。

综合考量的方式分两种,其一是利用相同的训练数据同时搭建多个独立的分类模型,然后少数服从多数做出最终的分类决策。

需要说明的是比如随机森林分类器,每一颗决策树放弃通过固定的排序算法来得到节点的顺序,而是随机选取特征。

其二是按照一定次序搭建多个分类模型,模型之间彼此依赖,每一个后续模型都会现有继承模型有所贡献,进而不断更新性能。代表数梯度决策提升树。

集成模型有更好的稳定性。


然后线性回归…通过最小二乘估计来估计最大似然估计的内容…【不知所措脸。

在分割之后对数据进行初步查验,目标数值差异较大。需要对特征以及目标进行标准化处理,就用StandardScaler。

后面提到通过多种测评函数进行评价,包括平均绝对误差(MAE)以及均方绝对误差(MSE)…

后面的看不懂了…溜了溜了明天再来啃…

原创粉丝点击