读书笔记：利用Python进行数据分析【第一章：准备工作】

来源：互联网发布：usr share mysql 编辑：程序博客网时间：2024/06/03 23:01

今天开始学习python，这本数据分析和机器学习实战同步学习，也会在学习过程中同步做读书笔记。

不过话说回来，第一章准备工作没什么好写的就是了。

Enthought Canopy安装

作为准备工作，要安装书中提到的Python科学计算环境：EPDfree。EPD（Enthought Python Distribution）是集成了大量Python科学计算模块（包括常用的Numpy，pandas等等）的开发环境，不过因为书已经很老了，其实现在的版本已经叫做Enthought Canopy，书中的译注建议下载与书中一模一样的安装包，以防有些例子会和书中的不一样。不过一个是那么老的版本其实已经不太好找了，另一个是实在没有必要为了省这点事去专门用一个上古的东西，所以还是直接去官网安装了新版。

官网地址：https://www.enthought.com/canopy-subscriptions/

可以看到有free版和subscription版以及Premium Support版，这里选择free，集成了450（放肆！）以上的，大概其中大部分我一辈子都用不上的安装包，安装之前要卸载掉电脑中其他的python环境。安装过程就比较随意了，基本没有需要你选的东西一路next就是。不过安装过程比较慢，没什么办法吧。另外，选用的是Python 2.7版。

书中的范例数据，从原网站找了半天没找到下载地址，最后也是在网上找了，比较无奈。

可以看到Enthought Canopy本身自带一个对新手很友好的IDE，实际上安装package的时候也比较方便。

引入惯例：

Python社区已经广泛接受了一些常用模块的命名惯例：

import numpy as npimport pandas as pdimport matplotib.pyplot as plt

“行话”：

数据规整：把散乱的非结构化数据整理成为结构化或整洁形式的数据，其实应该是和数据预处理比较接近的概念。

伪代码：并非有效的源代码，但是用于描述算法或过程的”代码式“描述，机器学习和编程语言学习中很常见，python作为解释型语言，很容易从伪代码转译代码。

语法糖：一种使代码更易读懂的编程语法。

阅读全文

0 0