毕设周记Ⅱ

来源:互联网 发布:linux 抓取log日志 编辑:程序博客网 时间:2024/06/05 16:47
  • 学习熟悉R语言相关的知识,看完慕课网上R语言入门教学视频,进阶材料是《R语言实战》,随用随查。

  • 了解学习当前主流的降维方法。

    • 主成分分析(PCA)
      • 将原始变量转换为一小部分反映事物主要性质的变量;
      • 选择确定的几个方向将源高维数据投影到低维空间,降维后数据间方差最大;
      • 事先要求解关于样本数据的协方差矩阵,继而求解特征值与特征向量;
      • 所有样本统一对待,忽略类别属性;

    • 线性判别分析(LDA)
      • 投影到低维空间后的能将低维数据的数据特征拉开(类内间距最小,类间间距最大),有利于分类;

    • 典型相关分析(CCA)
      • 是PCA在两组变量上的推广,为每组变量寻找相应投影向量,使之在投影后的低维空间中相关性最大;

    • 随机投影(RP)
      • Johnson-Lindenstrauss Lemma是RP的理论基础;
      • 投影矩阵随机产生,减小计算开销;
      • 如何选取合适的投影矩阵是降维效果好坏的关键;
  • 随机投影(RP)的原理了解的差不多了,其中的一些数学细节还需要再看。

  • 在考虑如何获取比较符合条件的高维数据集,电商的好数据没法搞到手啊,倒是有一些提供数据集的免费平台,找找看看吧,这件事目前还不处于优先考虑范畴。

  • 可能纯用R来实现整体不太现实,不排除使用其它工具的可能,比如python。


by gromit
01/05/2016

0 0
原创粉丝点击