Python数据挖掘学习--01基本模块介绍以及环境安装

来源:互联网 发布:thumbnails java 编辑:程序博客网 时间:2024/05/17 07:08

一、数据挖掘介绍

  数据挖掘利用了来自如下一些领域的思想:
(1) 来自统计学的抽样、估计和假设检验,
(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

  数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式。它使用广泛,并且是众多应用的技术基础。

• 导入和可视化数据

• 数据分类

• 使用回归分析和相关测量法发现数据之间的关系

• 数据降维以压缩和可视化数据带来的信息

• 分析结构化数据

每个主题都会提供代码实例,它们基于Python数据分析和处理的类库:numpy,matplotlib,sklearn和networkx等

二、相关环境以及安装包

所有模块安装包地址

1、安装

安装方式一般有两种:
环境windows,打开cmd
1、网络安装
pip install numpy

2、下载安装
通过安装包安装
pip install C:\Users\Administrator\Desktop\所需\numpy-1.13.1+mkl-cp35-cp35m-win_amd64.whl

2、后续开发所使用的模块

(1)numpy模块

    numpy可以高效处理数据、提供数组支持、很多模块都依赖他,比如pandas、scipy、matplotlib都依赖他,所以这个模块是基础。    numpy+mkl

(2)pandas模块

    pandas是后续中用得最多的一个模块,主要用于进行数据探索和数据分析。

(3)scipy模块

    scipy主要进行述职计算,同事支持矩阵运算、并提供了很多高等数据处理功能,比如积分,傅里叶变换、微分方程求解等。

(4) matplotlib

    作图模块,解决可视化问题

(5) statsmodels

    这个模块主要用于统计分析

(6) Gensim

    这个模块主要用于文本挖掘

(7) keras

    深度学习使用

注意:
这里写图片描述