【机器学习算法-python实现】PCA 主成分分析、降维
来源:互联网 发布:python 多进程写文件 编辑:程序博客网 时间:2024/05/18 22:17
1.背景
PCA(Principal Component Analysis),PAC的作用主要是降低数据集的维度,然后挑选出主要的特征。
PCA的主要思想是移动坐标轴,找到方差最大的方向上的特征值,什么叫方差最大的方向的特征值呢。就像下图中的曲线B,一样,它的覆盖范围最广。
基本步骤:(1)首先计算数据集的协方差矩阵
(2)计算协方差矩阵的特征值和特征向量
(3)保留最重要的n个特征
what is 协方差矩阵:
定义是变量向量减去均值向量,然后乘以变量向量减去均值向量的转置再求均值。例如x是变量,μ是均值,协方差矩阵等于E[(x-μ)(x-μ)^t],物理意义是这样的,例如x=(x1,x2,...,xi)那么协方差矩阵的第m行n列的数为xm与xn的协方差,若m=n,则是xn的方差。如果x的元素之间是独立的,那么协方差矩阵只有对角线是有值,因为x独立的话对于m≠n的情况xm与xn的协方差为0。另外协方差矩阵是对称的。
可以参考wiki:(http://zh.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE%E7%9F%A9%E9%98%B5)
2.代码实现
伪代码如下(摘自机器学习实战):
'''@author: Garvin'''from numpy import *import matplotlib.pyplot as pltdef loadDataSet(fileName, delim='\t'): fr = open(fileName) stringArr = [line.strip().split(delim) for line in fr.readlines()] datArr = [map(float,line) for line in stringArr] return mat(datArr)def pca(dataMat, topNfeat=9999999): meanVals = mean(dataMat, axis=0) meanRemoved = dataMat - meanVals #remove mean covMat = cov(meanRemoved, rowvar=0) eigVals,eigVects = linalg.eig(mat(covMat)) eigValInd = argsort(eigVals) #sort, sort goes smallest to largest eigValInd = eigValInd[:-(topNfeat+1):-1] #cut off unwanted dimensions redEigVects = eigVects[:,eigValInd] #reorganize eig vects largest to smallest lowDDataMat = meanRemoved * redEigVects#transform data into new dimensions reconMat = (lowDDataMat * redEigVects.T) + meanVals return lowDDataMat, reconMatdef plotBestFit(dataSet1,dataSet2): dataArr1 = array(dataSet1) dataArr2 = array(dataSet2) n = shape(dataArr1)[0] n1=shape(dataArr2)[0] xcord1 = []; ycord1 = [] xcord2 = []; ycord2 = [] xcord3=[];ycord3=[] j=0 for i in range(n): xcord1.append(dataArr1[i,0]); ycord1.append(dataArr1[i,1]) xcord2.append(dataArr2[i,0]); ycord2.append(dataArr2[i,1]) fig = plt.figure() ax = fig.add_subplot(111) ax.scatter(xcord1, ycord1, s=30, c='red', marker='s') ax.scatter(xcord2, ycord2, s=30, c='green') plt.xlabel('X1'); plt.ylabel('X2'); plt.show() if __name__=='__main__': mata=loadDataSet('/Users/hakuri/Desktop/testSet.txt') a,b= pca(mata, 2)
loadDataSet函数是导入数据集。
PCA输入参数:参数一是输入的数据集,参数二是提取的维度。比如参数二设为1,那么就是返回了降到一维的矩阵。
PCA返回参数:参数一指的是返回的低维矩阵,对应于输入参数二。参数二对应的是移动坐标轴后的矩阵。
3.代码下载
下载地址:请点击我
/********************************
* 本文来自博客 “李博Garvin“
* 转载请标明出处:http://blog.csdn.net/buptgshengod
******************************************/
2 0
- 【机器学习算法-python实现】PCA 主成分分析、降维
- 【机器学习】主成分(PCA)算法分析
- 【机器学习算法实现】主成分分析(PCA)——基于python+numpy
- 【机器学习算法实现】主成分分析(PCA)——基于python+numpy
- 【机器学习算法实现】主成分分析(PCA)——基于python+numpy
- 机器学习算法笔记系列之深入理解主成分分析PCA-Python实现篇
- 机器学习算法(降维)—主成分分析(PCA)
- 【机器学习系列】python版PCA(主成分分析)
- 机器学习算法~主成分分析(PCA)
- 【机器学习】主成分分析PCA
- 【机器学习】主成分分析PCA
- 机器学习实战-PCA主成分分析、降维
- 机器学习(七):主成分分析PCA降维_Python
- 机器学习(27)【降维】之主成分分析(PCA)详解
- 动手写机器学习算法:PCA主成分分析(降维)
- Python PCA主成分分析算法
- PCA主成分分析Python实现
- PCA主成分分析Python实现
- [POJ 3150] Cellular Automaton (矩阵快速幂 + 矩阵乘法优化)
- Qt(4):Qt下使用Qwt库的方法
- SD卡初始化
- ps滤镜下载大全-PSCC 64位滤镜收集
- java获取当前操作系统的信息
- 【机器学习算法-python实现】PCA 主成分分析、降维
- Section 1.1 Broken Necklace
- 堆栈
- PHP 获取图像信息 getimagesize 函数
- mule studio 学习笔记 (一): test006-loanbroker-simple
- LeetCode OJ算法题(十):Regular Expression Matching
- Python写的爬取知乎的最多一百篇文章
- Js:getAttribute 取html中某个元素属性的值 或者设置添加属性和值
- pom-for-sshe