Comprehensive learning path – Data Science in Python

来源:互联网 发布:高级算法工程师年薪 编辑:程序博客网 时间:2024/06/04 00:21

原文:https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-python/

综合学习路径 - Python中的数据科学

从Python菜鸟到高手之旅

所以,你想成为一名数据科学家,或者可能是你已经是一个,并希望扩大你的工具库。你来到了一个好地方。本文提供了一个使用Python进行数据分析的全面的学习路径。本学习路径提供了一个使用Python进行数据分的的全面的学习步骤。如果你已经有了一些基础知识,或者不需要所有的组件,可以随意调整自己的路径,同事让我们知道你在路径中做了哪些改变。
你还可以查看迷你版的学习路径

第0步:热身

在开始旅途之前,第一个问题就是
为什么用Python,或者,Python如何有用?

第一步:设置你的机器

现在你已经做了决定,是时间设置你的机器了,最简单的方法是从Continuum.io下载Anaconda。它与您将需要的大多数事情一起包装,采取这条路线的主要缺点是您需要等待Continuum更新软件包,即使可能有底层库可用的更新。 如果你是一个起步者,那就不要紧了。
如果您在安装过程中遇到任何问题,可以在这里找到有关各种操作系统的详细说明

第二步:学习python的基础知识

您应该首先了解语言的基础知识,库和数据结构,这里有一个四小时的免费的DataCamp的交互式Python教程,这个教程将教会你怎么用pyhon来研究数据,你应该学会这个教程里的知识。
具体需要学习的部分有:列表,元祖,字典,列表解析,元祖解析
任务,参加DataCamp的交互式Python教程
替代资源:如果你不喜欢这个教程,你也可以看一下python的google课堂,这是一个历史两天的教程,同时也涵盖了后面的一些知识。

第三步,学习正则表达式

因为我是java出身的,对正则表达式也有一些基础,所以我就略过了这部分的学习,如果后续需要的话,在择时加强,此部分的学习可以百度一下,有很多的学习资源。原文给出了一些学习资源,但是需要翻墙上网,所以这里就不在翻译了。倒是有一个小工具挺有意思大家不妨去看看

第四步,学习NumPy, SciPy, Matplotlib and Pandas

这是乐趣开始的地方! 以下简要介绍各种库。 我们开始练习一些常见的操作。

1,彻底地练习NumPy教程,特别是NumPy数组。为今后的学习奠定良好的基础。

教程需要翻墙才能看,或者已经打不开了,但是百度也有很多的教程可以看

2,接下来,看看SciPy教程,看看简介和基础支持,做一些练习
3,Matplotlib
4,十分钟了解pandas ,pandas指导
5,pandas基金提供的的教程

用时你也可以看看pandans做数据分析和pandans和数据

其他资源:
如果你想买一本书,推荐Wes McKinney的Python数据分析
这里有一个文档,也可以参考
最终效果,解决这些哈佛的作业


经过一段时间的学习后,对numpy,matplotlib,pandas,也有了一些认识,接着做下一步,我是通过分析基金的数据来学习的,主要学习了matplotlib库。哈佛的作业我没做。

第五步:有效的数据可视化
去看看cs10g的讲座(这个资源没有了),你可以跳过前两分钟,但是后面的部分是非常酷的。另外一个作业

第六步:学习Scikit学习和机器学习
现在,我们到了整个过程的核心阶段,Scikit-learn是python机器学习中一个非常有用的库。这里有概述,看看哈佛cs10g讲座的讲座10到讲座18(翻墙吧),看完后会对机器学习有一个初步的了解,监督学习算法,如回归,决策树,集体建模和非监督学习算法,如聚类等。一些作业

原创粉丝点击