在Ubuntu 14.04 64bit下用Python搭建数据科学研究环境

来源:互联网 发布:大宗交易数据查询 编辑:程序博客网 时间:2024/05/21 13:00

大数据时代已经来临,使用python来研究数据科学这门新崛起的学科已经越来越成为一种潮流. 下面是我根据网上的资料,结合自己的实践整理的文档, 以备参考.

在Ubuntu下安装Python模块通常可以使用apt-get和pip命令。apt-get命令是Ubuntu自带的包管理命令,而pip则是Python安装扩展模块的工具,通常pip会下载扩展模块的源代码并编译安装。

首先将Ubuntu 14.04更新到最新版本,接下来我们需要安装Python,NumPy/SciPy,matplotlib,pandas,scikit-learn和IPython。我们将从Python开发包和编译器开始安装,编译器将在编译所有软件的时候用到:
sudo apt-get install python python-dev python-pip
一旦必要的软件包已安装,我们就可以通过pip,即Python包管理器,安装NumPy。pip将下载NumPy的zip包,然后从源代码编译。请记住,编译需要花费一些时间,大概10-20分钟!
sudo pip install numpy
NumPy安装完了后,我们需要在继续之前检查它是否可用。在命令行提示符下键入python,然后试着导入NumPy。我们将计算一个列表的平均值,以测试NumPy是否可用:
python >>> >>> import numpy >>> from numpy import mean >>> mean([1,2,3]) 2.0 >>> exit() 


现在,我们已成功安装NumPy,接下来要安装Python的科学库,即SciPy。
sudo pip install scipy
测试scipy如下
python >>> import scipy >>> from scipy import std >>> std([1,2,3]) 0.81649658092772603 >>> exit() 


现在我们可以安装matplotlib了.安装好pip后就可以用下面的命令来查找matplotlib和查看其安装状态
sudo pip search matplotlib


如果还没有安装matplotlib, 可以使用下面的命令安装:
sudo apt-get install libpng-dev libjpeg8-dev libfreetype6-dev
sudo pip install matplotlib 


我们将继续安装数据分析和机器学习库pandas和scikit-learn.
sudo pip install -U scikit-learn
sudo pip install pandas 


我们需要测试scikit-learn:
python >>> from sklearn import datasets >>> iris = datasets.load_iris() >>> iris >>> 


继续测试pandas:
python >>> from pandas import DataFrame >>> pd = DataFrame() >>> pd Empty DataFrame Columns: [] Index: [] >>> exit() 


最后, 我们需要安装IPython.这是一个交互式的Python解释器,它相比标准的Python控制台,提供了一个更精简的工作流。在以后的教程中,我将讲述IPython在算法交易开发中的完整用途:
sudo pip install ipython 

说明:

网上说, 也可以使用下面的方法安装matplotlib
sudo apt-get build-dep python-matplotlib 或者
sudo apt-get build-dep matplotlib

这是可行的,但是会下载90M解压后达到300多M的数据包, 从源码安装matplotlib, 参见我的实践:


参考文献

[1].http://www.linuxidc.com/Linux/2013-11/92534p5.htm

[2].http://www.th7.cn/system/lin/201407/62903.shtml   matplotlib安装

0 0