机器学习-->矩阵和线性代数

来源：互联网发布：宇多田光知乎编辑：程序博客网时间：2024/06/07 13:13

本篇博文将主要总结机器学习里面的线性代数知识。分以下几个主题，但是不做详细的证明，只做总结。

矩阵
SVD
状态转移矩阵
特征值和特征向量
对称阵
正交阵
正定阵
矩阵求导
向量对向量求导
标量对向量求导
标量对矩阵求导

矩阵

SVD（奇异值分解）

奇异值分解（Singular Value Decomposition）是一种重要的矩阵分解方法。

假设矩阵A是一个m*n阶实矩阵，则存在一个分解使得：
这里写图片描述

假设A是一个M * M的矩阵，那么得到的U是一个M * M的方阵（里面的向量是正交的，U里面的向量称为左奇异向量），Σ是一个M * N的矩阵（除了对角线的元素都是0，对角线上的元素称为奇异值），这里写图片描述 (V的转置)是一个N * N的矩阵，里面的向量也是正交的，V里面的向量称为右奇异向量）

Σ对角线上的元素称为矩阵A的奇异值；
U的第i列称为A的关于σi的左奇异向量；
V的第i列称为A的关于σi的右奇异向量。

那么如何求出这里写图片描述，，矩阵呢？

首先，我们将一个矩阵A的转置这里写图片描述乘以矩阵A，将会得到一个对称方阵，由定理：实对称矩阵必可对角化，且特征向量正交。于是我们可以得到：

这里写图片描述

这里得到的v，就是我们上面的右奇异向量。此外我们还可以得到：
这里写图片描述

这里的σ就是上面说的奇异值，u就是上面说的左奇异向量。

通常将奇异值由大而小排列。奇异值σ跟特征值类似，在矩阵Σ中也是从大到小排列，而且σ的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵，这里定义一下部分奇异值分解：
这里写图片描述

这里写图片描述

这里我们假设前三个奇异值占到全部奇异值总和的99%以上，那么上式约等于：

这里写图片描述
这里UV是特征的话，那么SVD就起到一个特征选择的作用或者是降维的作用，在pca降维时用到类似思想

也即是：
这里写图片描述

r是一个远小于m、n的数。矩阵U和V都是单位正交方阵：UTU=I， VTV=I。

SVD应用案例代码：对图像提取主成分

#!/usr/bin/python#  -*- coding:utf-8 -*-import numpy as npimport osfrom PIL import Imageimport matplotlib.pyplot as pltdef restore1(sigma, u, v, K):  # 奇异值、左特征向量、右特征向量    m = len(u)    n = len(v[0])    a = np.zeros((m, n))    for k in range(K):        uk = u[:, k].reshape(m, 1)        vk = v[k,:].reshape(1, n)        a += sigma[k] * np.dot(uk, vk)    a[a < 0] = 0    a[a > 255] = 255    # a = a.clip(0, 255)    return np.rint(a).astype('uint8')def restore2(sigma, u, v, K):  # 奇异值、左特征向量、右特征向量    m = len(u)    n = len(v[0])    a = np.zeros((m, n))    for k in range(K+1):        for i in range(m):            a[i] += sigma[k] * u[i][k] * v[k]    a[a < 0] = 0    a[a > 255] = 255    return np.rint(a).astype('uint8')##　上面的restore1和restore2都是用来计算sigma*u*v，其效果一样if __name__ == "__main__":    A = Image.open("son.png", 'r')    output_path = r'.\Pic'    if not os.path.exists(output_path):        os.mkdir(output_path)    a = np.array(A)    K = 50    ## 分别在RGB三个通道上，利用SVD分解出u,sigma,v三个矩阵    u_r, sigma_r, v_r = np.linalg.svd(a[:, :, 0])    u_g, sigma_g, v_g = np.linalg.svd(a[:, :, 1])    u_b, sigma_b, v_b = np.linalg.svd(a[:, :, 2])    plt.figure(figsize=(10,10), facecolor='w')    for k in range(1, K+1):        ##　分别提取在RGB三个颜色通道上的主成分，然后进行堆叠形成新的像素点        R = restore2(sigma_r, u_r, v_r, k)        G = restore2(sigma_g, u_g, v_g, k)        B = restore2(sigma_b, u_b, v_b, k)        I = np.stack((R, G, B), axis=2)　##　axis=2表示对应元素级的堆叠        ##Image.fromarray(I).save('%s\\svd_%d.png' % (output_path, k))        if k <= 24:            plt.subplot(6, 4, k)            plt.imshow(I)            plt.axis('off')            plt.title(u'奇异值个数：%d' % k)    plt.suptitle(u'SVD与图像分解', fontsize=20)    plt.tight_layout(0.3, rect=(0, 0, 1, 0.92))    # plt.subplots_adjust(top=0.9)    plt.show()