python机器学习day'6

来源:互联网 发布:网络教育和专升本 编辑:程序博客网 时间:2024/06/04 00:45

昨天咸鱼了一天…今天继续。

有三种比较常见的测评函数来对模型进行评价:平均绝对误差(MAE),均方误差(MSE),R-squared(也叫R平方)这样三个参数。

里面提到一个预测结果是y拔,叫做回归模型的预测结果。还有共m个目标数值yi【这个目标数值应该指的是实际结果的y。

然后平均绝对误差就是((( 每一个目标数值分别与预测结果的差 ) 的绝对值 ) 的平均数 )。噫。

然后均方误差就是((( 每一个目标数值分别与预测结果的差 ) 的平方 ) 的平均数 )。

R平方里面与目标数值做差的数是[ 回归模型根据特征向量Xi的预测值 ]。

(╯﹏╰)我感觉这个是能够理解的,前面那个y拔不是很清楚,他是什么方式回归出来一个数?那个是yi的平均数?

???

行吧,然后R平方就是1-(( 每一个目标数值分别和预测结果的差 ) 的平方 ) / ((每一个目标数值分别和 ( 根据特征向量的预测值 )的差 ) 的平方)

……

嗯,然后后面分别引入了三个包,得到评估的结果。里面R2评估函数的参数是y_test和y_predict。但是MAE和MSE的参数都是套了个inverse_transform的两个数值。

然后我就百度了一下这个函数,发现了一个大佬。

http://blog.csdn.net/u012162613/article/details/42192293 这一篇讲的是PCA算法,主成分分析算法,但是,里面一些有关通用内容的讲解让我很是受教。

之前我只知道fit_transform函数就是先fit训练,再tranform转换。但是我其实不知道也很疑惑转换啥。

上文提到了transform其实就是降维的过程。我理解的降维就是对特征压缩筛选。虽然我对降维之后的格式什么的还不知道,总算在理解上有一丝明晰。

默默的收藏了大佬的主页…感觉现在自己有些浮躁…求成?也不是求成,总是想着每天赶快完成给自己规定的一部分任务…唉,没有迎难而上的精神。

然后他提到说介绍两种R平方的调用方法,我才知道原来score也是R平方啊。但是前面的准确性也是score?准确性的定义是预测正确的占总的预测的百分比。

还有我不太清楚为什么输出的结果和书上不一样…

得到一个和之前有些类似的结论:在数据规模大于10万,使用随机梯度估计法,小的时候用线性回归,因为性能更好一些。

虽然线性回归有一些单一,但是是一个很好的基线系统。


然后向量机回归这一节简单粗暴的用代码实现了三种不同核函数配置的支持向量机回归模型,分别预测。

核函数是一种特征映射技巧,将原有的特征映射到更高维度的空间,从而尽可能达到新的高纬度特征线性可分的程度。

行吧,没有生字,后面有一副很生动的图片,大概明白意思了。

和降维相反,大概可以想象二维转化为三维这样理解,只是跨度不只是一维,并且转化之后特征可以线性的分割。


回归树算法。这里找到一个讲解:http://blog.csdn.net/moodytong/article/details/10060817

回归树做得更多的是预测的作用,返回一个数值,书中称其为"一团训练数据的均值"。

树模型的优点:1.非线性。2.特征可以不标准化和统一化。3.直观输出决策过程,使预测结果具有可解释性。

缺点:1.模型过于复杂丧失对新数据预测的精度。2.稳定性差。3.NP难问题,有限时间内无法找到最优解问题。


集成模型,之前有普通随机森林和提升森林,又介绍了一种极端随机森林…

你介绍这么多我也不懂啊摔。它的特点是构建分裂节点的时候不是随意的选取特征,而是先随机收集一部分特征,然后利用信息熵和基尼不纯性等指标挑选最佳的节点特征。


唉,已经走马观花看完了书上基础部分的监督学习的经典模型了…

明天换一个学习思路?去scikit-learn官网找找这些模型,翻译一下,了解一下方法和参数。

嗯嗯嗯。最近吃的超多又不运动!唉。烦。