转:sklearn包——混淆矩阵、分类报告等自动生成
来源:互联网 发布:股票网络销售违法嘛 编辑:程序博客网 时间:2024/06/08 16:55
preface:做着最近的任务,对数据处理,做些简单的提特征,用机器学习算法跑下程序得出结果,看看哪些特征的组合较好,这一系列流程必然要用到很多函数,故将自己常用函数记录上。应该说这些函数基本上都会用到,像是数据预处理,处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果,得出报告。
1.输入
2.处理从数据集开始,提取特征转化为有标签的数据集,转为向量。拆分成训练集和测试集,这里不多讲,在上一篇博客中谈到用StratifiedKFold()函数即可。在训练集中有data和target开始。
my_preprocess()函数:
主要使用sklearn的preprocessing函数中的normalize()函数,默认参数为l2范式,对特征列进行正则处理。即每一个样例,处理标签,每行的平方和为1.
my_feature_selection()函数:
使用sklearn的feature_selection函数中SelectKBest()函数和chi2()函数,若是用词袋提取了很多维的稀疏特征,有必要使用卡方选取前k个有效的特征。
my_PCA()函数:
主要用来观察前多少个特征是主要特征,并且画图。看看前多少个特征占据主要部分。
clf_train()函数:
可用多种机器学习算法,如SVM, LR, RF, GBDT等等很多,其中像SVM需要调参数的,有专门调试参数的函数如StratifiedKFold()(见前几篇博客)。以达到最优。
my_confusion_matrix()函数:
主要是针对预测出来的结果,和原来的结果对比,算出混淆矩阵,不必自己计算。其对每个类别的混淆矩阵都计算出来了,并且labels参数默认是排序了的。
my_classification_report()函数:
主要参考sklearn官网主要通过sklearn.metrics函数中的classification_report()函数,针对每个类别给出详细的准确率、召回率和F-值这三个参数和宏平均值,用来评价算法好坏。另外ROC曲线的话,需要是对二分类才可以。多类别似乎不行。
- 转:sklearn包——混淆矩阵、分类报告等自动生成
- python sklearn包——混淆矩阵、分类报告等自动生成
- python sklearn包——混淆矩阵、分类报告等自动生成
- Python sklearn包——mnist数据集下不同分类器的性能实验
- 影像分类中的混淆矩阵
- 二分类与混淆矩阵
- 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
- 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
- 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
- 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
- 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
- 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
- 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
- 【scikit-learn】评估分类器性能的度量,像混淆矩阵、ROC、AUC等
- scikit-learn中评估分类器性能的度量,像混淆矩阵、ROC、AUC等
- python sklearn包——cross-validation
- 分类器评价参数之混淆矩阵
- 分类器评价参数之混淆矩阵
- Maven Problem: No compiler is provided in this environment
- Anroid微信支付从统一下单到唤起支付
- dumpsys的使用笔记
- Java 深入学习(21) —— 内部类
- C++的学习笔记(第三章:控制语句)
- 转:sklearn包——混淆矩阵、分类报告等自动生成
- html5及标签库
- load average详解
- [Leetcode] 553. Optimal Division 解题报告
- Python:os.system要启动别的py文件,路径怎么写
- casperjs 模拟登陆alipay
- 本次技术博客平台的选择
- 文字超出部分用省略号表示
- 【politics】联合国耶路撒冷投票哪些投了反对票和弃权票?