机器学习及实践 2.1.1.1 线性分类器
来源:互联网 发布:淘宝网开直通车的要求 编辑:程序博客网 时间:2024/05/20 10:22
线性分类器
sklearn 中线性分类器 LogisticRegression 和SGDclassifier 对肿瘤进行、良/恶分类。
p35-p43
代码13:数据预处理:
1.读取csv 数据(1.创建特征向量表。2.pandas.read_csv 读取数据(网络或本地))
2.缺失数据处理(丢弃)
#代码 13 :良/恶性乳腺癌肿瘤数据预处理import pandas as pdimport numpy as np#创建特征列表column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape', 'Marginal Adhesion','Single Epithelial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']#使用 pandas.read_csv函数从互联网读取指定数据data = pd.read_csv(r'D:\MainPart\Waytokaggle\data\breast-cancer-wisconsin.data',names = column_names)#将?替换为标准缺失值表示data = data.replace(to_replace = '?',value = np.nan)#丢弃带有缺失值的数据data = data.dropna(how = 'any')#输出data的数据量和纬度data.shape
代码14:数据划分
1.对数据划分,分出 训练集和测试集。
2.查看训练集与测试集的数量和类别划分。
#代码 14 :准备良/恶性乳腺癌肿瘤训练、测试数据#使用 train_test_split 分割训练集from sklearn.cross_validation import train_test_split#随机采样25%的数据用于测试,剩下75%用于构建训练集x_train,x_test,y_train,y_test = train_test_split(data[column_names[1:10]],data[column_names[10]],test_size = 0.25,random_state = 33)#查验训练样本的数量和类别分布#查看训练集 测试集 数量及类别分布y_train.value_counts()y_test.value_counts()
代码15:线性分类器进行分类 ,sklearn 中线性分类器 LogisticRegression 和SGDclassifier
1.标准化数据,每个维度 均值为0,方差为1。
2.LogisticRegression 和SGDclassifier :1.初始化。2.fit函数训练模型参数。3.训练好模型predict函数 进行预测,结果保存。
#代码 15 :使用线性分类模型从事良/恶性肿瘤预测任务#StandardScaler标准化,尽量将数据转化为均值为零,方差为一的数据from sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LogisticRegressionfrom sklearn.linear_model import SGDClassifier#标准化数据,尽量将数据转化为均值为零,方差为一的数据,使得预测结果不会被某些纬度过大的特征值而主导ss = StandardScaler()x_train = ss.fit_transform(x_train)x_test = ss.fit_transform(x_test)#初始化LogisticRegression 与 SGDClassifierlr = LogisticRegression()sgdc = SGDClassifier()#调用LogisticRegression 中的 fit 函数/模块用来训练模型参数lr.fit(x_train,y_train)#使用训练好的模型lr对x_test进行预测,结果存储在lr_y_predict中lr_y_predict = lr.predict(x_test)#调用SGDClassifier 中的 fit 函数/模块用来训练模型参数sgdc.fit(x_train,y_train)#使用训练好的模型sgdc对x_test进行预测,结果存储在sgdc_y_predict中sgdc_y_predict = lr.predict(x_test)
代码16:性能分析
1.使用模型自带函数score ,获得模型在测试集上的准确性结果。
2.使用classification_report ,获得混淆矩阵
#代码 16 :使用线性分类器模型从事良/恶性肿瘤预测任务的性能分析from sklearn.metrics import classification_report#使用logistic回归模型自带的评分函数score 获得模型在测试集上的准确性结果print('Accuracy of LR Classifier:',lr.score(x_test,y_test))#利用classification_report模块获得LogisticRegression其它三个指标的结果print(classification_report(y_test,lr_y_predict,target_names=['Benign','Malignant']))#使用SGD随机梯度下降模型自带的评分函数score 获得模型在测试集上的准确性结果print('Accuracy of SGD classifier:',sgdc.score(x_test,y_test))#利用classification_report模块获得SGDclassifier其它三个指标的结果print(classification_report(y_test,sgdc_y_predict,target_names = ['Benign','Malignant']))
阅读全文
0 0
- 机器学习及实践 2.1.1.1 线性分类器
- 初识机器学习和线性分类器
- 机器学习-第二天-线性分类器
- 机器学习笔记一------线性分类器
- 机器学习_线性分类器
- 机器学习:svm 线性分类
- 【机器学习】线性分类LogisticRegression
- 机器学习之线性分类
- 林轩田机器学习基石及技法课程中线性分类器的总结
- 【机器学习】SVM学习(二):线性分类器
- 机器学习及实践
- 机器学习--线性回归和分类
- 机器学习简单实验(线性分类)
- 从GLM广义线性模型到线性回归、二项式及多项式分类——机器学习笔记整理(一)
- 机器学习实践-Ch02 kNN分类算法
- 2. 机器学习实践之手写数字识别 - 初步特征选择及线性识别
- Python机器学习及实践:
- scikit-learn 交叉验证绘图及原理实践 分类:机器学习Sklearn
- 认识struts2
- 深度学习指南
- ECharts开发入门
- java基本教程之join方法详解 java多线程
- 中山大学算法课程题目详解(第六周)
- 机器学习及实践 2.1.1.1 线性分类器
- Hyperlynx学习笔记
- UVa11795
- Python urllib.urlretrieves 代码实例
- 你还不知道jsonp跨域,引发的安全问题的严重性?这里帮你修复。
- Going deeper with convolutions----------(GoogLeNet) 论文解读
- Rhyme/ Linux fdisk 手工分区
- Golang设计模式之代理模式
- 2017.10自考总结