weka中对数值型数据离散化

来源:互联网 发布:超级账本 java 编辑:程序博客网 时间:2024/06/05 14:14
连续数值离散化大致可分为:1)有监督(supervised)和2)无监督(unsupervised)两类。
  • 有监督方法可通过设定类别相关目标函数如:分类错误率,熵增益等指标结合二叉树算法对特征空间进行划分。这类方法的核心思想就是是每类样本尽量分布在特征空间中的不同子划分中。 
  • 无监督方法由于没有考虑类别信息,因此其核心思想是使得每个子划分空间的样本分布尽量均匀,具体可以采用等间隔、等密度或者k-means算法进行划分。 
原创粉丝点击