python sklearn one-hot编码

来源:互联网 发布:开淘宝店怎么进货 编辑:程序博客网 时间:2024/05/19 14:53
  • one-hot编码的作用

    • 使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点

    • 将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。

  • sklearn的一个例子

from sklearn import preprocessingenc = preprocessing.OneHotEncoder()enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])print(enc.n_values_)//每个特征对应的最大位数print(enc.transform([[0,1,3]]).toarray())print(enc.transform([[0,1,1]]).toarray())

上面代码enc.fit()里有一个4行3列的矩阵

  1. 每一列对应于一个样本的特征序列,即一个样本有三个特征
  2. 4行表明传入了4个样本
  3. 观察每一列的值可以知道:第一个特征有两个取值0,1;第二个特征有三个取值0,1,2;第三个特征有4个取值0,1,2,3
  4. 所以第一个特征的one-hot编码是一个两位的01串,第二个特征是一个三位的01串,第三个特征是一个4位的01串
0 0
原创粉丝点击