Out of bag error in Random Forest

来源:互联网 发布:linux 查看时区 编辑:程序博客网 时间:2024/05/17 22:47

sklearn中的RandomForestClassifier有一个参数:

oob_score : bool (default=False)
Whether to use out-of-bag samples to estimate the generalization accuracy.

中文叫‘袋外误差’,可以看出这个参数的意思是:使用oob来衡量test error.


关于oob的解释,stackoverflow上有比较全面的解释:OOB的解释
说下自己的理解:

  • RF需要从原始的特征集中随机sampling,然后去分裂生成单颗树.
  • 每个树的训练样本是从原始的训练集boostraping而来.
  • 由于boostraping的有放回抽样方式,导致每个树的训练集合不同且只是原始训练集的一个部分.
  • 对于第t个树来说,原始训练集中那些不在第t个树的训练集的数据,可以使用第t个树来进行test.
  • 现在生成n(n是原始数据集的大小)个树,每个树的训练样本大小为n-1,对第i个树来说其训练集不包含(xi,yi)这个样本.
  • 使用不包含(xi,yi)这个样本的所有的树(n-1个),vote的结果作为最终(xi,yi)这个样本的test结果.

这样就可以在训练的时候来进行测试了,经验表明:

out-of-bag estimate is as accurate as using a test set of the same size as the training set.

意思就是,oob是test error的一个无偏估计.

一句话总结下: 假设Zi=(xi,yi)

The out-of-bag (OOB) error is the average error for each Zi calculated using predictions from the trees that do not contain Zi in their respective bootstrap sample. This allows the RandomForestClassifier to be fit and validated whilst being trained.


参考

stackoverflow上OOB的解释
sklearn上OOB的解释

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 sp下行短信费扣怎么办 hr公司业务员招不到人怎么办 卖房中介被房倒压房子怎么办 电脑放不了dvd光盘怎么办 股东迟迟不交齐股本金怎么办 wps转pdf就乱了怎么办 被有用分期骗了怎么办 找不到以前有用分期的账号怎么办 打工去韩国不懂韩语怎么办? 想去韩国整容没钱怎么办 专接本没接上怎么办 抄写经文写错了怎么办 在外地修车被宰怎么办 国外汇款公司名称写错了怎么办 增值税专票没有机器编码怎么办 发票右上角的编码打不全怎么办 税票名称开错了怎么办 开票名称开错了怎么办 退休党员不交党费怎么办 cad打不出来字怎么办 用cad打不出来字怎么办 打字总打错字母怎么办 mac做ppt卡住了怎么办 mac的ppt卡住了怎么办 淘宝店铺被屏蔽了怎么办 淘宝申请售后卖家拒绝怎么办 淘宝投诉卖家入口关闭怎么办 遇见最喜欢孩子的父母怎么办 房屋备案表丢了怎么办 淘宝发布商品没有品牌怎么办 电子发票名称写错了怎么办 合同写错了划掉怎么办 进京证日期错了怎么办 买车时谈的协议与合同不一致怎么办 新车上牌找不到流水号怎么办 开票数量比入库数量少怎么办 我贷款的app忘了怎么办 网贷名字忘了怎么办 附件太大邮件发不出去怎么办 孩子出生足印单子丢了怎么办 保险名字写错了怎么办