数据挖掘

来源：互联网发布：iis php mysql 编辑：程序博客网时间：2024/05/16 06:02

1. 低秩矩阵恢复

低秩矩阵恢复主要应用于推荐算法，对矩阵中的未评分位置进行评分。具体原理推导见这里吧：http://download.csdn.net/download/zk_j1994/9983147

代码：

# -*- coding: utf-8 -*-"""基于矩阵分解的推荐算法1. 使用梯度下降进行迭代更新;"""import numpy as npimport matplotlib.pyplot as pltnp.random.seed(1)def load_data():    data = [[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],            [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],            [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],            [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],            [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],            [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],            [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],            [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],            [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],            [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],            [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]    return np.array(data)def gradAscent(data, K, max_iter, alpha, beta):    """ 梯度下降更新P, Q矩阵的元素, 使均方误差最小 """    if not isinstance(data, np.matrix):        data = np.mat(data)            # 初始化P, Q矩阵    n, m = data.shape    P = np.mat(np.random.random((n, K)))    Q = np.mat(np.random.random((K, m)))    print("\nP = \n{0}".format(P))    print("\nQ = \n{0}".format(Q))        loss_list = []    _iter = 0    while _iter < max_iter:        # 更新P, Q中的每一个元素        for i in range(n):            for j in range(m):                if data[i, j] > 0:                    error = (data[i, j] - P[i, :] * Q[:, j])[0, 0]     # (i, j)处的误差                    for k in range(K):                        P[i, k] = P[i, k] + alpha * (2 * error * Q[k, j] - beta * P[i, k])                        Q[k, j] = Q[k, j] + alpha * (2 * error * P[i, k] - beta * Q[k, j])                # 计算原矩阵和恢复矩阵之间的误差        loss = 0        for i in range(n):            for j in range(m):                if data[i, j]> 0:                    for k in range(K):                        loss += P[i, k] * Q[k, j]                    loss = np.sum(abs(data[i, j] - loss))                loss_list.append(loss)        if loss <= 1e-3:            break        _iter += 1    return P, Q, loss_listdef draw_loss(loss):    plt.plot(range(len(loss)), loss)    plt.show()        if __name__ == "__main__":    data = load_data()        P, Q, loss = gradAscent(data, 5, 20000, 0.0002, 0.02)        print("\n恢复矩阵 = \n{0}".format(P * Q))    draw_loss(loss)

loss下降过程：

2. 非负矩阵分解

非负矩阵分解与低秩矩阵恢复类似，他们的三个矩阵的元素都要求非负。不同的是低秩矩阵恢复是预测原矩阵中为0的位置；而非负矩阵分解认为原矩阵是完整的。假设原矩阵R（n * m） = M（n*k） x N（k*m）；非负矩阵的应用主要有：

2.1 文本挖掘

假设文本矩阵为n * m，即n篇文章，m个单词，其中的元素为单词出现的次数。将矩阵分解之后，k即为特征的个数或者说主题的个数。在M中我们容易得出每篇文章最重要的几个主题；而在N中我们容易得出每个主题最重要的一些单词。

# -*- coding: utf-8 -*-"""非负矩阵分解用于 - 主题模型使用了一种很奇特的算法: 乘法更新法则恢复原矩阵"""import numpy as npnp.random.seed(1)def _cal_diff(matrix, recover):    """    计算重构矩阵与原矩阵之间的误差    recover:        重构矩阵    """    return abs(matrix - recover).sum()def factorize(m, fea_num = 6, _iter = 2000):    """    对矩阵进行分解, 重构    m:        一行代表一篇文章, 一列代表一个单词;    fea_num:        为当前matrix寻找feature的个数;        该算法的核心 - 四个矩阵    hn = w' * m    hd = w' * w * feature    """    if not isinstance(m, np.matrix):        m = np.matrix(m)        print("请确保输入m是一个行为文章, 列为单词的矩阵.")            # 1. 随机初始化权重矩阵和特征矩阵    weight = np.matrix(np.random.random((m.shape[0], fea_num)))    feature = np.matrix(np.random.random((fea_num, m.shape[1])))        # 2. 循环更新矩阵    for i in range(_iter):        # 2.1 计算重构矩阵和原矩阵的误差        lose = _cal_diff(m, weight * feature)        if i % 10 == 0: print("\n原矩阵与重构矩阵之间的lose = {0}".format(lose))        if lose <= 1e-3: return weight, feature                # 2.2 更新特征矩阵        hn = weight.T * m; hd = weight.T * weight * feature        feature = np.matrix(np.array(feature) * np.array(hn) / np.array(hd))                # 2.3 更新权重矩阵        wn = m * feature.T; wd = weight * feature * feature.T        weight = np.matrix(np.array(weight) * np.array(wn) / np.array(wd))    return weight, feature                if __name__ == "__main__":        # 1. 文本寻找主题    data = [[0, 0, 0, 0, 2, 4, 0, 0, 3, 0, 5],            [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],            [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],            [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],            [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],            [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],            [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],            [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],            [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2]]            weight, feature = factorize(data, 3)        recover = np.mat(weight) * np.mat(feature)        """    对第0篇文章进行分析:        第0篇文章在7个特征(主题)上的权重weight[0,:] = [0.009, 2.817, 0.589, 0, 0, 0, 0]    我们又容易从feature矩阵中获取每个特征中, 每个单词的重要性。    因此我们可以为第0篇文章选出2个最大的特征, 每个特征我们取3个最重要的单词:    2.817:  [第10个单词, 第5个单词, 第8个单词]    0.589:  [第4个单词, 第9个单词, 第5个单词]        这两个特征极有可能代表两个不同的主题, 但这篇文章主要和2.817那个特征(主题相关)    """            # 2. 数据降维    data = [[5, 5, 3, 0, 5, 5, 4, 3, 2, 1, 4, 1, 3, 4, 5],            [5, 0, 4, 0, 4, 4, 3, 2, 1, 2, 4, 4, 3, 4, 0],            [0, 3, 0, 5, 4, 5, 0, 4, 4, 5, 3, 0, 0, 0, 0],            [5, 4, 3, 3, 5, 5, 0, 1, 1, 3, 4, 5, 0, 2, 4],            [5, 4, 3, 3, 5, 5, 3, 3, 3, 4, 5, 0, 5, 2, 4],            [5, 4, 2, 2, 0, 5, 3, 3, 3, 4, 4, 4, 5, 2, 5],            [5, 4, 3, 3, 2, 0, 0, 0, 0, 0, 0, 0, 2, 1, 0],            [5, 4, 3, 3, 2, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1],            [5, 4, 3, 3, 1, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2],            [5, 4, 3, 3, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1]]        # 2.1 sklearn数据压缩    from sklearn.decomposition import NMF    Model = NMF(n_components=2)    W = Model.fit_transform(data)        """    NMF用于数据降维        weight就是降维结果, 其次NMF还可以用于图像无损压缩等等, 节约存储空间;        """        # 3. 总结    # 其实文本寻找主题也是一个降维的过程, 将一个含有数千个单词的文章进行维度约简, 留下少量单词代表文章主题

3. 注意

显然K越大，则P，Q矩阵更为复杂，能够更好地拟合原矩阵，但也容易导致过拟合；而K越小，则P,Q更简单，模型更精简。

同时，对于非负矩阵分解而言，k的大小决定了所有文章能生成多少个主题，一般根据经验决定，或者尝试调节k的大小。

参考文献

http://m.blog.csdn.net/winone361/article/details/50705739

https://wenku.baidu.com/view/7bbaf0739b6648d7c1c74687#28

http://blog.csdn.net/google19890102/article/details/51124556

阅读全文

0 0