数据科学家——数据挖掘与机器学习

来源:互联网 发布:淘宝手机模板 编辑:程序博客网 时间:2024/06/05 06:51
  1. 了解数据挖掘与机器学习
    了解什么数据分析,什么是数据挖掘,数据挖掘与机器学习有什么区别,学习大数据需要学习哪些课程。基于R语言或Python实现数据挖掘与机器学习的算法。

  2. 关联分析
    Apriori算法:Apriori是关联规则挖掘中的一个经典算法,该算法是Agrawal和Srikant与1994年提出的一种广度优先的逐层搜索算法,通过对事务计数找出频繁项集,然后再从中推导出关联规则。

  3. 决策树分类(ID3、C4.5)
    决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

  4. 随机森林
    随机森林是用随机的方式建立一个森林,森林里面有很多决策树,决策树之间是没有关联的。当有一个新的输 入样本进入决策森林时,让森林中的每一棵决策树分别进行一下决策判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本 为选择最多的那一类。

  5. 贝叶斯分类
    (1)朴素贝叶斯: 最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。(2)贝叶斯网络:贝叶斯网络(Bayesian network),又称信念网络(belief network)或是有向无环图模型(directed acyclic graphical model),是一种概率图型模型,借由有向无环图(directed acyclic graphs, or DAGs )中得知一组随机变量{}及其n组条件概率分配(conditional probability distributions, or CPDs)的性质。

  6. 人工神经网络
    人工神经网络(Artificial Neural Networks,ANN)就是模拟人思维。 它是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信 息存储、良好的自组织自学习能力等特点。BP(Back Propagation)算法又称为误差 反向传播算法,是人工神经网络中的一种监督式的学习算法。

  7. K-最邻近(KNN)
    所谓K最近邻,就是k个最近的邻居的意思。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

  8. SVM(支持向量机)
    支持向量机是用来解决分类问题。 支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以求获得最好的推广能力 。

  9. 遗传算法
    遗传算法(Genetic Algorithm)又叫基因进化算法,或进化算法。遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。

  10. 回归分析
    回归分析是对多个自变量建立一个函数来预测因变量的值。(1)线性回归:线性回归是利用预测变量的一个线性组合函数来预测响应变量的分析方法。(2)多元回归:多元回归是指一个因变量(预报对象),多个自变量(预报因子)的回归模型。(3)逻辑回归:logistic逻辑回归通过使用数据拟合出一条逻辑曲线来预测事件发生的概率。(4)非线性回归:线性回归分析是要找出一条与数据近似拟合的直线。非线性回归分析则是要通过数据找出一条拟合的曲线。

  11. 聚类算法
    聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。内容包括:K-means、K-medoids、统计信息网格、小波变换、层次聚类、基于密度的聚类。

  12. 离散点检测
    离散点也称为孤立点。经常存在一些数据对象,它们不符合数据的一般模型。这样的数据对象被称为孤立点( outlier ),它们与数据的其他部分不同或不一致。内容包括:单变量的离散点检测、局部离散点因子检测、用聚类方法进行离散点检测、时间序列的离散点检测。

  13. 时间序列分析
    时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。时间序列分析包括:时间序列预测、时间序列聚类、时间序列分类。

  14. 文本挖掘
    文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。在现实世界中,可获取的大部信息是以非结构化文本形式存储在数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面等。文本挖掘已经成为信息领域的研究热点。