决策树算法实现应用【基于Python语言实现】

来源：互联网发布：java c 应用领域编辑：程序博客网时间：2024/05/15 00:37

决策树算法应用【基于Python语言实现】

本文包括源码，数据提供，环境等；

1.需要Python基础

2. Python机器学习的库：scikit-learn

scikit-learn中关于决策树的介绍：http://scikit-learn.org/stable/modules/tree.html

2.1：特性：

简单高效的数据挖掘和机器学习分析
对所有用户开放，根据不同需求高度可重用性
基于Numpy, SciPy和matplotlib
开源，商用级别：获得 BSD许可

2.2 覆盖问题领域：分类（classification), 回归（regression), 聚类（clustering),

降维(dimensionality reduction)，模型选择(model selection), 预处理(preprocessing)

3. 使用用scikit-learn

安装scikit-learn方式: pip, easy_install, windows installer

安装必要package：numpy， SciPy和matplotlib，可使用Anaconda(包含numpy, scipy等科学计算常用package）

安装注意问题：Python解释器版本（2.7 or 3.4？）, 32-bit or 64-bit系统

4.例子：利用决策树算法，根据训练数据集，预测包含年龄，收入，是否是学生，信用记录的特征数据，判断该记录是否购买电脑？

代码实践：

1.安装Python和机器学习库，和一些依赖包；

本人是直接安装了包含了众多包的Anaconda3 ，下载后再window7 64bit上双击安装即可；

Anaconda3较大，如果网速不好，可以从百度云下载地址：http://pan.baidu.com/s/1dFIfoYX

2.打开cmd 输入：pip list 可以查看到已经安装的包；

3. 在cmd中运行如下的Python程序：

from sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import treefrom sklearn import preprocessingfrom sklearn.externals.six import StringIO# Read in the csv file and put features into list of dict and list of class labelallElectronicsData = open(r'AllElectronics.csv', 'r')reader = csv.reader(allElectronicsData)#http://bugs.python.org/msg82661#http://www.cnblogs.com/feichexia/archive/2012/10/30/2747225.html#reader.next()改为reader.__next__() ，并且把open中的rb改为r#https://docs.python.org/3/library/csv.html#csv.csvreader.__next__headers = reader.__next__() print(headers)featureList = []labelList = []for row in reader:    labelList.append(row[len(row)-1])    rowDict = {}    for i in range(1, len(row)-1):        rowDict[headers[i]] = row[i]    featureList.append(rowDict)print(featureList)# Vetorize featuresvec = DictVectorizer()dummyX = vec.fit_transform(featureList) .toarray()print("dummyX: " + str(dummyX))print(vec.get_feature_names())print("labelList: " + str(labelList))# vectorize class labelslb = preprocessing.LabelBinarizer()dummyY = lb.fit_transform(labelList)print("dummyY: " + str(dummyY))# Using decision tree for classification# clf = tree.DecisionTreeClassifier()clf = tree.DecisionTreeClassifier(criterion='entropy')clf = clf.fit(dummyX, dummyY)print("clf: " + str(clf))# Visualize modelwith open("allElectronicInformationGainOri.dot", 'w') as f:    f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f)oneRowX = dummyX[0, :]print("oneRowX: " + str(oneRowX))newRowX = oneRowXnewRowX[0] = 1newRowX[2] = 0print("newRowX: " + str(newRowX))predictedY = clf.predict(newRowX)print("predictedY: " + str(predictedY))

4.运行截图：【将上述代码和数据放在同一文件夹下，进入该文件夹下运行该文件】