SMOTE算法及其python实现
来源:互联网 发布:张国政怒喷裁判 知乎 编辑:程序博客网 时间:2024/04/28 16:37
SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术.它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General),SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,具体如下图所示,算法流程如下。
(1)对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。
(3)对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本。
smote算法的伪代码如下:
python代码实现如下:
import randomfrom sklearn.neighbors import NearestNeighborsimport numpy as npclass Smote: def __init__(self,samples,N=10,k=5): self.n_samples,self.n_attrs=samples.shape self.N=N self.k=k self.samples=samples self.newindex=0 # self.synthetic=np.zeros((self.n_samples*N,self.n_attrs)) def over_sampling(self): N=int(self.N/100) self.synthetic = np.zeros((self.n_samples * N, self.n_attrs)) neighbors=NearestNeighbors(n_neighbors=self.k).fit(self.samples) print 'neighbors',neighbors for i in range(len(self.samples)): nnarray=neighbors.kneighbors(self.samples[i].reshape(1,-1),return_distance=False)[0] #print nnarray self._populate(N,i,nnarray) return self.synthetic # for each minority class samples,choose N of the k nearest neighbors and generate N synthetic samples. def _populate(self,N,i,nnarray): for j in range(N): nn=random.randint(0,self.k-1) dif=self.samples[nnarray[nn]]-self.samples[i] gap=random.random() self.synthetic[self.newindex]=self.samples[i]+gap*dif self.newindex+=1a=np.array([[1,2,3],[4,5,6],[2,3,1],[2,1,2],[2,3,4],[2,3,4]])s=Smote(a,N=100)print s.over_sampling()
SMOTE算法的缺陷
该算法主要存在两方面的问题:一是在近邻选择时,存在一定的盲目性。从上面的算法流程可以看出,在算法执行过程中,需要确定K值,即选择多少个近邻样本,这需要用户自行解决。从K值的定义可以看出,K值的下限是M值(M值为从K个近邻中随机挑选出的近邻样本的个数,且有M< K),M的大小可以根据负类样本数量、正类样本数量和数据集最后需要达到的平衡率决定。但K值的上限没有办法确定,只能根据具体的数据集去反复测试。因此如何确定K值,才能使算法达到最优这是未知的。
另外,该算法无法克服非平衡数据集的数据分布问题,容易产生分布边缘化问题。由于负类样本的分布决定了其可选择的近邻,如果一个负类样本处在负类样本集的分布边缘,则由此负类样本和相邻样本产生的“人造”样本也会处在这个边缘,且会越来越边缘化,从而模糊了正类样本和负类样本的边界,而且使边界变得越来越模糊。这种边界模糊性,虽然使数据集的平衡性得到了改善,但加大了分类算法进行分类的难度.
针对SMOTE算法的进一步改进
针对SMOTE算法存在的边缘化和盲目性等问题,很多人纷纷提出了新的改进办法,在一定程度上改进了算法的性能,但还存在许多需要解决的问题。
Han等人Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning 在SMOTE算法基础上进行了改进,提出了Borderhne.SMOTE算法,解决了生成样本重叠(Overlapping)的问题该算法在运行的过程中,查找一个适当的区域,该区域可以较好地反应数据集的性质,然后在该区域内进行插值,以使新增加的“人造”样本更有效。这个适当的区域一般由经验给定,因此算法在执行的过程中有一定的局限性。
smote算法的论文地址:https://www.jair.org/media/953/live-953-2037-jair.pdf
我找到的smote相关论文请转到我的另外一篇博客。
- SMOTE算法及其python实现
- SMOTE python实现
- smote算法
- 从零开始实现过抽样算法smote
- 机器学习数据不平衡处理之SMOTE算法实现
- SMOTE算法(人工合成数据)
- DBscan算法及其Python实现
- Kemans算法及其Python 实现
- kNN算法及其python实现
- matlab实现SMOTE
- 当常规的算法都山穷水尽之后,你可以试试python中的SMOTE算法
- 不平衡数据处理之SMOTE算法
- 数据不平衡处理----smote算法
- 数据不平衡之SMOTE算法
- Kmeans聚类算法及其Python实现
- 高斯判别分析算法及其python实现
- 高斯判别分析算法及其python实现
- KNN及其改进算法的python实现
- 在命令行中运行java程序的步骤
- JS与HTML
- 关于Hibernate的查询的总结
- Codeforces 617E XOR and Favorite Number[莫队算法]
- android关于控件中setTag(key,Object)的设置的相关问题
- SMOTE算法及其python实现
- Invalid escape sequence (valid ones are \b \t \n \f \r \" \' \\ )报错
- Linux下Web服务器开发
- mongodb_修改器
- 初学前端阶段性的自我总结
- 虚幻4 打包安卓失败 cannot find -l*** || ant.bat" debug
- Unity系列——构建pageView翻页容器
- Python--闭包的概念
- Python之路--super关键字