Python高级数据处理与可视化

来源:互联网 发布:淘宝买药怎么审核 编辑:程序博客网 时间:2024/05/22 08:08

聚类分析Cluster
(1)聚类分析主要使用kmeans算法,kmeans算法的主要有两个步骤:①随机定义K个数据点为聚类中心,并根据观测数据到K个数据点的距离将所有的观测数据分配给这K个聚类中心;②调整K个聚类中心的位置到分配给它们的观测数据的均值位置。③重复以上两步,直到聚类中心的位置不再改变,或者满足给定条件。
(2)在python中使用scipy.cluster.vq给定的kmeans和vq函数可以计算聚类中心,以及观测数据所属的聚类中心。

Matplotlib绘图基础
(1)Matplotlib绘图是最著名的python绘图库,主要用于二维绘图。
(2)matplotlib的优点有:①画图质量高;②方便快捷的绘图模块。(3)绘图API–pyplot模块,这个API提供了一套跟matlab很像的绘图函数。
(4)集成库–pylab模块(包含Numpy和pyplot中的常用函数)。

Matplotlib图像属性控制
(1)在绘图时,在绘图的函数中设置相应的参数可以控制图像属性。
(2)绘图颜色和线条类型和样式可以更改。
(3)加标题:图title,横轴xlabel,纵轴ylabel。
(4)使用figure方法以及其中的figsize和dpi参数修改图的大小和精度。
(5)可以设置plot方法中的color,linestyle,linewidth,label,marker参数来设置相应的样式。
(6)通过legend方法来设置图例,例如设置其中的loc参数指定图例的位置。
(7)使用subplot方法来在一个图中画多个子图,同时通过figure函数来确定绘图区域。
(8)也可以通过axes([left, bottom, width, height])方法来画子图,参数范围为(0, 1),这样可以话图中图。

pandas作图
(1)pandas整合matplotlib的相关功能可以实现基于Series和DataFrame的某些绘图功能。
(2)pandas可以直接对Series和DataFrame进行绘图,也就是说Series和DataFrame对象中含有plot方法。然后可以通过pyplot中的方法来设置由pandas绘出来图的其它参数。
(3)pandas控制图像形式,在plot方法中设置kind参数可以设置线条类型,还能通过color参数设置线条颜色,通过marker设置线条类型样式,通过label参数设置图例。还能画出概率分布图!

数据存取
(1)csv格式数据存取,使用to_csv方法可以将数据写到指定路径名字的csv文件。相反,从csv文件读使用read_csv方法。
(2)csv其实就是“逗号分割值”的三个英文的缩写,表明了数据在csv文件中的存储形式。
(3)xls格式数据存取,使用to_excel函数存储,使用read_excel函数读取。在存储时还能通过sheet_name参数设置表格名。

Python的理工类应用
(1)简单的三角函数计算。
(2)一组数据的傅里叶变换,使用到scipy中的fft方法。
(3)例如,Biopython用于生物学。

Python的人文社科类应用
(1)自然语言处理。

原创粉丝点击