读书笔记:利用Python进行数据分析【第一章:准备工作】

来源:互联网 发布:usr share mysql 编辑:程序博客网 时间:2024/06/03 23:01

今天开始学习python,这本数据分析和机器学习实战同步学习,也会在学习过程中同步做读书笔记。

不过话说回来,第一章准备工作没什么好写的就是了。


Enthought Canopy安装


作为准备工作,要安装书中提到的Python科学计算环境:EPDfree。EPD(Enthought Python Distribution)是集成了大量Python科学计算模块(包括常用的Numpy,pandas等等)的开发环境,不过因为书已经很老了,其实现在的版本已经叫做Enthought Canopy,书中的译注建议下载与书中一模一样的安装包,以防有些例子会和书中的不一样。不过一个是那么老的版本其实已经不太好找了,另一个是实在没有必要为了省这点事去专门用一个上古的东西,所以还是直接去官网安装了新版。


官网地址:https://www.enthought.com/canopy-subscriptions/

可以看到有free版和subscription版以及Premium Support版,这里选择free,集成了450(放肆!)以上的,大概其中大部分我一辈子都用不上的安装包,安装之前要卸载掉电脑中其他的python环境。安装过程就比较随意了,基本没有需要你选的东西一路next就是。不过安装过程比较慢,没什么办法吧。另外,选用的是Python 2.7版。


书中的范例数据,从原网站找了半天没找到下载地址,最后也是在网上找了,比较无奈。



可以看到Enthought Canopy本身自带一个对新手很友好的IDE,实际上安装package的时候也比较方便。



引入惯例:


Python社区已经广泛接受了一些常用模块的命名惯例:


import numpy as npimport pandas as pdimport matplotib.pyplot as plt



“行话”:


数据规整:把散乱的非结构化数据整理成为结构化或整洁形式的数据,其实应该是和数据预处理比较接近的概念。

伪代码:并非有效的源代码,但是用于描述算法或过程的”代码式“描述,机器学习和编程语言学习中很常见,python作为解释型语言,很容易从伪代码转译代码。

语法糖:一种使代码更易读懂的编程语法。

阅读全文
0 0