【特征工程】连续数据特征离散化的方法
来源:互联网 发布:华科 煤燃烧 知乎 编辑:程序博客网 时间:2024/05/22 09:57
离散化
背景
连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程,比如在LR模型,由于是广义线性模型表达能力有限,因此通过特征离散化来了提高非线性学习能力
主要方法
等距离散
取值范围均匀划成n等份,每份的间距相等
等频离散
均匀分为n等份,每份内包含的观察点数相同
优化离散
大致有两类方法:
1. 卡方检验方法:(统计样本的实际观测值与理论推断值之间的偏离程度,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合)
- 分裂方法:找到一个分裂点看,左右2个区间,在目标值上分布是否有- 显著差异,有显著差异就分裂,否则就忽略。这个点可以每次找差异最大的点
- 合并方法:先划分如果很小单元区间,按顺序合并在目标值上分布不显著的相邻区间,直到收敛
2. 信息增益方法:
- 分裂方法:找到一个分裂点看,左右2个区间,看分裂前后信息增益变化阈值,如果差值超过阈值(正值,分列前-分裂后信息熵),则分裂。每次找差值最大的点做分裂点,直到收敛
- 合并方法:先划分 如果很小单元区间,按顺序合并信息增益小于阈值的相邻区间,直到收敛
阅读全文
0 0
- 【特征工程】连续数据特征离散化的方法
- 连续特征离散化达到更好的效果,特征选择的工程方法
- 连续特征离散化的方法
- 连续特征离散化的方法
- 连续特征离散化的方法
- 连续特征的离散化
- 特征工程--特征离散化的意义
- 连续特征离散化
- 连续特征离散化
- 特征工程-特征离散化
- 特征工程之连续特征与离散特征处理方法介绍
- 特征工程之连续特征与离散特征处理方法介绍
- 连续特征的离散化的意义
- 连续特征离散化的好处
- 特征离散化,特征交叉,连续特征离散化
- 特征选择:连续特征离散化达到更好的效果
- 离散化特征的方法
- 对于特征离散化,特征交叉,连续特征离散化非常经典的解释
- RecyclerView添加点击事件
- (四)、log4j2相关依赖
- jquery获取当前页面的URL信息
- 页面中刷新收集
- Eclipse安装Marketplace Client
- 【特征工程】连续数据特征离散化的方法
- Dubbod的深入理解(3)
- MySQL安装和配置完整教程
- Android 自定义实现switch开关按钮
- Spark Streaming实时计算框架介绍
- Unity中以一定的角速度转向目标
- 生产消费者模型
- Java并发编程:volatile关键字解析
- APT