关于数据挖掘学习计划

来源:互联网 发布:淘宝卖虚拟物品流程 编辑:程序博客网 时间:2024/06/05 20:17

1.数据资源
数据挖掘,首先必须先得有数据资源吧。数据的来源可以从互联网download,不管是公开的数据还是你自己从网页上爬取出来的数据都可以作为数据挖掘的原始资料。
2.数据管理
对于数据的管理必须采用自己熟悉的方式,最好是能够建立自己的数据库,这样方便今后自己按照一定要求或者原则提取特定的数据集。
3.数据初步分析
在数据挖掘中,拿到数据后的第一步绝对不是直接就导入数据,盲目提取各类特征,然后套用各种模型看来跑程序,这就抛弃了数据本身携带的重要的、和业务相关的背景信息,或者说是对数据没有做特定的观察(这一点现在才发现,之前自己在科研的课题上对于肌电信号的分析就是盲目的提取各类特征,AR系数啊,CI聚类索引,熵entropy,RMS,isEMG,MF中值频率,MPF平均频率等等,完全没有从痉挛本身的角度出发,之前还没意识到这种无知的做法),盲目对于数据进行研究。今天从北大一个同学那里也了解到,其实在数据挖掘中,数据的特征是非常重要的,好的特征才是整个项目成功的关键。
4.机器学习、数据挖掘各类算法
对于数据实际分析后,提取关键的特征后,就可以用机器学习的方法或者数据挖掘的算法。顺别提一下,这两者本身在侧重点上还是有些许差别的,机器学习更注重各种模型学习的过程,是以学习算法为核心,所以凸优化理论显得格外重要,而数据挖掘是从数据出发,目的在于发现数据中存在的规律或者有用的信息,各注重对于各类模型的运用,常见的就是各种分类器、SVM、逻辑回归、决策树、random forest等等

基于上述对于数据挖掘整个pipeline的理解,目前要学习的知识和能力可以分为以下几部分:

  1. 理论基础
    机器学习、数据挖掘、特征工程、凸优化等
  2. 编程语言
    脚本语言Python,高级编程语言Java,目前自己基本会用matlab,但是考虑到企业上基本都是python为主,所以需要让自己转到python中
  3. 业务理解和思考深度
    这个方面就是需要看一些企业中的案列,例如推荐系统等。

学习内容确定后,就是安排自己如何学习、实践了:

  1. 针对理论理论还是需要研究经典的书籍
    《统计学习方法》 李航 清华大学出版社 2012
    《凸优化》 书籍还没找
    《数值计算》 书籍还没找

  2. 数据库技术、数据结构与算法、编程语言python、java,
    数据结构与算法 《算法导论》
    其他的技术基本都可以从网上找视频学习。

    3..leetcode 训练数据结构和算法能力
    kaggle大赛接触一下实际数据挖掘中的流程,能够从中学习到更多实用性的经验以及解决问题的能力。

总结:
第一次写博客,真是十足的乱写,一点逻辑性都没有,但是希望开个好头吧,以后会注重文章的结构和逻辑性,争取能写出更好的文章和大家共享。
如果大家不幸看到这文章,在吐槽的同时,也希望能够给我点意见和建议,无论是针对如何写博客还是文章本身内容方面的问题都可以私信或者留言,一定虚心接受批评,谢谢!

0 0
原创粉丝点击