《统计学习方法》学习笔记(6)-- 决策树-附代码(sklearn)
来源:互联网 发布:战网无法连接网络 编辑:程序博客网 时间:2024/06/14 01:43
决策树,特征选择的三个准则:信息增益(ID3),信息增益比(C4.5),基尼系数(CART)。决策树的生成,决策树的剪枝。
代码:
数据:decision tree.csv
RID,age,income,student,credit_rating,class_buys_computer1,youth,high,no,fair,no2,youth,high,no,excellent,no3,middle_aged,high,no,fair,yes4,senior,medium,no,fair,yes5,senior,low,yes,fair,yes6,senior,low,yes,excellent,no7,middle_aged,low,yes,excellent,yes8,youth,medium,no,fair,no9,youth,low,yes,fair,yes10,senior,medium,yes,fair,yes11,youth,medium,yes,excellent,yes12,middle_aged,medium,no,excellent,yes13,middle_aged,high,yes,fair,yes14,senior,medium,no,excellent,no
代码:
# coding=utf-8from sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import treefrom sklearn import preprocessingfrom sklearn.externals.six import StringIO# Read in the csv file and put features into list of dict and list of class labelallElectronicsData = open(r'decision_tree.csv', 'rb')reader = csv.reader(allElectronicsData) # 按行读取内容headers = reader.next() # 内容的第一行## print(headers)featureList = []labelList = []for row in reader: labelList.append(row[len(row)-1]) # 取每一行的最后一个值 rowDict = {} for i in range(1, len(row)-1): rowDict[headers[i]] = row[i] featureList.append(rowDict)# print(featureList) # 如下面每一个字典是数据文件中的一行# # [{'credit_rating': 'fair', 'age': 'youth', 'student': 'no', 'income': 'high'},# # {'credit_rating': 'excellent', 'age': 'youth', 'student': 'no', 'income': 'high'},。。。。# Vetorize featuresvec = DictVectorizer() # sklearn 中提供了一个工具,可以将包含字典类型的list直接转化为数值型的数据。dummyX = vec.fit_transform(featureList) .toarray()# print("dummyX: " + str(dummyX))# print(vec.get_feature_names())# print("labelList: " + str(labelList))# vectorize class labelslb = preprocessing.LabelBinarizer()dummyY = lb.fit_transform(labelList)print("dummyY: " + str(dummyY))# Using decision tree for classification# clf = tree.DecisionTreeClassifier()clf = tree.DecisionTreeClassifier(criterion='entropy')clf = clf.fit(dummyX, dummyY)# print("clf: " + str(clf))# Visualize modelwith open("decision_tree.dot", 'w') as f: f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f)# graphviz 打印出这个tree来看看,打印的时候将转化前的feature_names找回来。# 上面生成dot文件,可以将其转化为pdf文件可视化出来。# 转化命令:dot -Tpdf decision_tree.dot -o decision_tree.pdfoneRowX = dummyX[0, :]print("oneRowX: " + str(oneRowX))newRowX = oneRowXnewRowX[0] = 1newRowX[2] = 0print("newRowX: " + str(newRowX))predictedY = clf.predict(newRowX)print("predictedY: " + str(predictedY))
0 0
- 《统计学习方法》学习笔记(6)-- 决策树-附代码(sklearn)
- 《统计学习方法》笔记(六)--决策树
- 《统计学习方法》笔记(5):决策树
- 《统计学习方法》第五章决策树学习笔记
- 统计学习方法笔记:决策树
- 统计学习方法(二)决策树
- 《统计学习方法》学习笔记(一):统计学习方法概论
- 统计学习方法笔记七----决策树
- 统计学习方法学习笔记《五》——决策树
- 《统计学习方法》学习笔记(一)绪论
- 《统计学习方法》学习笔记(1)perceptron
- 统计学习方法—学习笔记(1)
- 统计学习方法-李航(学习笔记)
- 统计学习方法学习笔记(第一章)
- 统计学习笔记(五)决策树
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 0423学习总结(各种指针)
- 不使用"+"," -"操作符完成加法运算
- VS2008开发FFmpeg应用
- python初级教程:入门详解
- Android 文件下载
- 《统计学习方法》学习笔记(6)-- 决策树-附代码(sklearn)
- 软件测试基础——fault、error and failure
- Android WebView加载https网页(亲测)
- Java setReuseAddress
- 开发Android 项目需用到的jar包,开源工具类,plugins等
- 0425
- 前端必学-----AJax--笔记---01
- Golang runtime 浅析
- 好好搜索