RapidMiner 离散/缺失

来源:互联网 发布:淘宝知名店铺 编辑:程序博客网 时间:2024/06/01 23:33

这里写图片描述

一、分级离散


—概述

将数值属性离散到用户定义的若干级别中。

—描述

这个操作符将所有的数值属性离散成标称属性。通过简单的分级,离散被执行,即相同大小,
指定数量的级别被创建,数值值被分类到这些级别中。跳过所有包含标签的特殊属性。

—输入

example set input: expects: ExampleSetMetaData: #examples: = 0; #attributes: 0

—输出

example set output:
original:
preprocessing model:

—参数

return preprocessing model: 表示是否也应该返回预处理模型。
create view: 创建视图应用预处理,而不是改变数据。
attribute filter type: 条件指定该操作符选择或影响哪些属性。
attribute: 应选择的属性。
attributes: 应选择的属性。
regular expression: 属性名保持不变的正则表达式。
use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,但匹配这个的属性将被过滤。
except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应该被过滤。
value type: 属性的值类型。
use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类
型,但该类型的属性将被过滤。
except value type: 该值类型除外。
block type: 属性的块类型。
use block type exception: 如果启用,指定块类型的异常可能被指定。
except block type: 该块类型除外。
numeric condition: 条件的参数字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被过滤掉的属性。
include special attributes: 表示是否该操作符也适用于特殊属性。否则,它们保持不变。
number of bins: 定义应该用于每个属性的级别数。
define boundaries: 为级别计算定义界限。
min value: 级别范围的最小值。
max value: 级别范围的最大值。
range name type: 表示是否应该使用包含界限的长的范围名。
automatic number of digits: 表示是否应该为范围名自动确定数字位数。
number of digits: 用于间隔名称的最小数字位数。

二、频率离散


—概述

将数值属性离散化到用户定义的带相同频率的若干单元中。

—描述

这个操作符将数据集中的所有数值属性离散成标称属性。通过相同频率分级,离散被执行,即所有箱子的阈值用一种方式选择,该方式为所有的箱子包含相同数量的数值。通过参数,或者,可选的,作为带有非缺失值(为每个单个属性计算)的实例值的平方根被计算,箱子的数量被指定。跳过所有包含标签的特殊属性。请注意,可能得到不同数量实例的箱子。该情况肯可能发生,如果属性值不唯一,由于该算法不能区分相同值的实例。

—输入

example set input: 期望: 实例集元数据: #examples: = 0; #attributes: 0

—输出

example set output:
original:
preprocessing model:

—参数

return preprocessing model: 表示是否也应该返回预处理模型。
create view: 创建视图应用预处理,而不是改变数据。
attribute filter type: 条件指定该操作符选择或影响哪些属性。
attribute: 应选择的属性。
attributes: 应选择的属性。
regular expression: 属性名保持不变的正则表达式。
use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,但匹配这个的属性将被过滤。
except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应该被过滤。
value type: 属性的值类型。
use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类型,但该类型的属性将被过滤。
except value type: 该值类型除外。
block type: 属性的块类型。
use block type exception: 如果启用,指定块类型的异常可能被指定。
except block type: 该块类型除外。
numeric condition: 条件的参数字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被过滤掉的属性。
include special attributes: 表示是否该操作符也适用于特殊属性。否则,它们保持不变。
use sqrt of examples: 如果为真,单元数由非缺失值的平方根确定。
number of bins: 确定应该用于每个属性的单元数。
range name type: 表示是否应该使用包含界限的长的范围名。
automatic number of digits: 表示是否应该为范围名自动确定数字位数。
number of digits: 用于间隔名称的最小数字位数(-1:自动确定最小数)。

三、大小离散


—概述

将数值属性离散到用户定义数量的包含实例的单元中。

—描述

这个操作符将数据集中的所有数值属性离散成标称属性。通过将实例装入相同大小的箱子,离散被执行。相同大小,指定数量的箱子被创建,数值值被分类到这些箱子中,以致所有的箱子包含相同数量的实例。跳过所有包含标签的特殊属性。

—输入

example set input: 实例 : 实例集元数据: #examples: = 0; #attributes: 0

—输出

example set output:
original:
preprocessing model:

—参数

return preprocessing model: 表示是否也应该返回预处理模型。
create view: 创建视图应用预处理,而不是改变数据。
attribute filter type: 条件指定该操作符选择或影响哪些属性。
attribute: 应选择的属性。
attributes: 应选择的属性。
regular expression: 属性名保持不变的正则表达式。
use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,但匹配这个的属性将被过滤。
except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应该被过滤。
value type: 属性的值类型。
use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类型,但该类型的属性将被过滤。
except value type: 该值类型除外。
block type: 属性的块类型。
use block type exception: 如果启用,指定块类型的异常可能被指定。
except block type: 该块类型除外。
numeric condition: 条件的参数字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被过滤掉的属性。
include special attributes: 表示是否该操作符也适用于特殊属性。否则,它们保持不变。
size of bins: 定义应该用于每个单元的实例数。
sorting direction: 表示是否该值应该以增序或降序存储。
range name type: 表示是否应该使用包含界限的长的范围名。
automatic number of digits: 表示是否应该为范围名自动确定数字位数。
number of digits: 用于间隔名称的最小数字位数(-1:自动确定最小数)。

四、声明缺失值


—概述

在所选的子集上声明一个缺少的数值或标称属性值,它将被转换为 Double.NaN 。

—描述

用Double.NaN遍历指定的子集,给定的值将被替换,因此,它将被后续操作符看作为缺失值。

—输入

example set input: 期望: 实例集元数据 : #examples: = 0; #attributes: 0

—输出

example set output:
original:

—参数

attribute filter type: 条件指定该操作符选择或影响哪些属性。
attribute: 应选择的属性。
attributes: 应选择的属性。
regular expression: 属性名保持不变的正则表达式。
use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,但匹配这个的属性将被过滤。
except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应该被过滤。
value type: 属性的值类型。
use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类型,但该类型的属性将被过滤。
except value type: 该值类型除外。
block type: 属性的块类型。
use block type exception: 如果启用,指定块类型的异常可能被指定。
except block type: 该块类型除外。
numeric condition: 条件的参数字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被过滤掉的属性。
include special attributes: 表示是否该操作符也适用于特殊属性。否则,它们保持不变。
mode: 选择缺失值的值类型。
numeric value: 该参数定义缺失的数值值。
nominal value: 该参数定义缺失的标称值。

五、填补数据空白


—概述

该操作符填补基于数据集的ID属性的数据的差距。

—描述

基于数据集ID属性,这个操作符填补数据空白。该ID属性,要么值类型为“整数”,要么是一个数据值类型。

该运算符执行下列步骤:
根据ID属性,数据被分类
在连续ID值之间的所有当前距离被计算
所有距离的最大公约数(GCD)被计算
具有ID值的所有行被添加到数据集,该ID值是GCD的倍数,但是是缺省的。

请注意,在ID属性旁边的所有属性值将有一个缺省值,该值被作为下一步被取代。

—输入

example set input: 期望 : 实例集元数据: #examples: = 0; #attributes: 0

—输出

example set output:
original:

—参数

use gcd for step size: 表示是否应该计算生成的最大公约数,并使用它作为所有数据点之间潜在的距离。
step size: 填充差距所使用的步长(仅在 GCD计算没有被检查时使用)。
start: 在第一个数据点被填补之前,是否该参数在开始定义差距(如果发生)。
end: 在最后一个数据点被填充之后,是否参数在结束处定义差距(如果发生)。

六、填补缺失值


—概述

通过为缺失值应用一个学习模型替换实例中的缺失值。

—描述
通过每个属性(标签除外)的学习模式,操作符MissingValueImpution填补缺失值,并应用这些模式
到数据集。将被应用的操作符必须作为内部操作符给定。为了指定实例集的子集,缺省值应该被填充(例如,限制填充只能是数值类型),相应的属性可能被过滤器参数选择。请注意,根据内部操作符处理缺失值的能力,在某种情况下,该操作符不能填充所有缺失值。这种行为会导致一个警告。因此,它对该操作符与随后的MissingValueReplenishment相结合很有用。注意:此操作符目前正在研发,并不会在所有情况下正常工作。我们不建议在生产系统中使用该操作符。

—输入

example set in: 期望 : 实例集

—输出

example set out:

—参数

attribute filter type: 条件指定该操作符选择或影响哪些属性。
attribute: 应选择的属性。
attributes: 应选择的属性。
regular expression: 属性名保持不变的正则表达式。
use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,但匹配这个的属性将被过滤。
except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应该被过滤。
value type: 属性的值类型。
use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类型,但该类型的属性将被过滤。
except value type: 该值类型除外。
block type: 属性的块类型。
use block type exception: 如果启用,指定块类型的异常可能被指定。
except block type: 该块类型除外。
numeric condition: 条件的参数字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被过滤掉的属性。
include special attributes: 表示是否该操作符也适用于特殊属性。否则,它们保持不变。
iterate: 在学习相应的概念和迭代后,立即计算缺失值。
learn on complete cases: 仅在了解完整情况的基础上将学习概念归咎于缺失值(应该用在学习方法不能处理缺失值的情况)。
order: 缺失值在其中被估计的属性的顺序。
sort: 用在顺序策略中的排序方向。
use local random seed: 表示是否使用局部随机种子。
local random seed: 指定局部随机种子。

七、替换缺失值


—概述

替换实例中的缺失值。

—描述

替换示例中的缺失值。如果一个值丢失,它将被”minimum”, “maximum”, “average”, 和 “none”函数之一替换,这应用于实例集的非丢失属性值。”none”指,该值不能被替换。使用参数列列表可以选择函数。如果一个函数的名称作为关键字出现在该列表中,该值被用作为函数名。如果属性名称不在列表中,默认参数指定的函数被使用。对于标称属性,模式用于平均,即在数据中最常发生的标称值。对于标称属性和替换类型0,为该属性定义的第一个标称值被使用。补充”值”表明,用户
定义的参数应该用于替换。

—输入

example set input: 期望 : 实例集元数据 : #examples: = 0; #attributes: 0

—输出

example set output:
original:
preprocessing model:

—参数

return preprocessing model: 表示是否也应返回预处理模型。
create view: 创建视图去应用预处理数据,而不是改变数据。
attribute filter type: 该条件指定该操作符选择或影响哪个属性。
attribute: 应该选择的属性。
attributes: 应该选择的属性。
regular expression: 属性名应保持的正则表达式。
use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,匹配这个的属性将被过滤。
except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应被过滤。
value type: 属性的值类型。
use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类型,但该类型的属性将被过滤。
except value type: 该值类型除外。
block type: 属性的块类型。
use block type exception: 如果启用,指定块类型的异常可能被指定。
except block type: 该块类型除外。
numeric condition: 条件的参数字符串,如 ‘>= 5’
invert selection: 表示是否接受通常被过滤的属性。
include special attributes: 表示是否该操作符也应适用于特殊属性。否则,它们保持不变。
default: 适用于没有被参数 ‘columns’显示指定的所有列的功能。
columns: 没列替换功能的列表。
replenishment value: 该值用于一些补充类型。

By

——imbenben
Email:mbb0616@gmail.com

0 0