building machine learning system with Python 学习笔记--从零开始机器学习(0)

来源:互联网 发布:宜宾市行知中学周圣川 编辑:程序博客网 时间:2024/06/06 07:41

作为机器学习的小白,想打好基础,先学Google TensorFlow、百度PaddlePaddle这些成熟的框架,只能知其然,而不知其所以然。想深入理解机器学习,还是要从学习底层的实现细节开始。

building machine learning system with Python从清理数据开始,到用scikit-learn包分类,逐层深入,有比较平缓的学习曲线。学习本书需要一定的Python基础,了解一点Python的语法后,熟悉下数据处理的几个包numpy、matplotlib、pandas等,就可以享受本书的内容了。附上Udacity上Python入门的两门免费课程:计算机科学导论https://cn.udacity.com/course/intro-to-computer-science--cs101和数据分析入门https://cn.udacity.com/course/data-analyst-nanodegree--nd002-cn-basic#show-more-syllabus

笔者买了东南大学出版社影印版的Python语言构建机器学习系统,全英文还是有一定的学习障碍,附上本书的中文学习资源:http://download.csdn.net/download/allenchhk/9548923,喜欢纸质书籍的可以购买人民邮电出版社的中文版。

涉及原文的部分,我就直接贴截图了,本文的主要目的是尝试能否给别人讲清楚我的理解,讨论和批评能使自己的理解更进一步。若涉及侵权,请联系本人删除。

该书的内容概述如下:

第一章通过一个非常简单的例子介绍机器学习的基本概念。尽管很简单,但也可能会有过度拟合的风险。

第二章讲解了使用真实数据解决分类问题的方法,在这里我们对计算机进行训练,使它能够区分不同类型的花朵。

第三章讲解了词袋方法的威力,我们可以在没有真正理解帖子内容的情况下,用它来寻找相似的帖子。

第四章让我们超越将每个帖子分配给单个簇的方式。由于真实的文本可以处理多个主题,我们可以看到如何把帖子分配到几个主题上。

第五章讲解了如何用逻辑回归判定用户答案的好坏。在这个情景的背后,我们将学会用偏差-方差的折中调试机器学习模型。

第六章介绍了朴素贝叶斯的工作原理,以及如何用它对推文进行分类,来判断推文中的情感是正面的还是负面的。

第七章讨论了一个处理数据的经典课题。我们通它构建了一个推荐系统,根据用户所输入的喜欢和不喜欢的信息,为用户推荐新的商品。

第八章同时使用多种方法改进推荐效果。我们还可以看到如何只根据购物信息构建推荐系统,而不需要用户的评分数据(用户并不总会提供这一信息)。

第九章举例说明,如果有人把我们收集而成的庞大音乐库弄乱了,那么为歌曲建立次序的唯一希望就是让机器来对歌曲分类。你会发现,有时候信任别人的专长比我们自己构建特征更好。

第十章讲解了如何在处理图像这个特定情景下应用分类方法。这个领域又叫做模式识别。

第十一章告诉我们还有其他什么方法可以帮我们精简数据,使机器学习算法能够处理它们。

第十二章讲解了不断膨胀的数据规模,以及这为何会为数据分析造成难题。在本章中,我们利用多核或计算集群,探索了一些更大规模数据的处理方法。另外,我们还介绍了云计算(将亚马逊的Web服务当做云计算提供商)。

附录A罗列了一系列机器学习的优质资源。



下一节开始搭建环境,并进入第一章的学习

0 0