scikit-learn常用的一些函数及在实战中的用法
来源:互联网 发布:mysql攻击全攻略 编辑:程序博客网 时间:2024/06/07 00:20
原文地址:http://blog.csdn.net/mmc2015/article/details/47079409
零、所有项目通用的:
http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预测器)
http://blog.csdn.net/mmc2015/article/details/46852755(加载自己的原始数据)
(适合文本分类问题的 整个语料库加载)
http://blog.csdn.net/mmc2015/article/details/46906409(5. 加载内置公用的数据)
(常见的很多公共数据集的加载,5. Dataset loading utilities)
http://blog.csdn.net/mmc2015/article/details/46705983(Choosing the right estimator(你的问题适合什么estimator来建模呢))
(一张图告诉你,你的问题选什么estimator好,再也不用试了)
http://blog.csdn.net/mmc2015/article/details/46857949(训练分类器、预测新数据、评价分类器)
http://blog.csdn.net/mmc2015/article/details/46858009(使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参)
一、文本分类用到的:
http://blog.csdn.net/mmc2015/article/details/46857887(从文本文件中提取特征(tf、idf))
(CountVectorizer、TfidfTransformer)
http://blog.csdn.net/mmc2015/article/details/46866537(CountVectorizer提取tf都做了什么)
(深入解读CountVectorizer都做了哪些处理,指导我们做个性化预处理)
http://blog.csdn.net/mmc2015/article/details/46867773(2.5.2. 通过TruncatedSVD实现LSA(隐含语义分析))
(LSA、LDA分析)
(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46940373(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic)
(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46941367(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续))
(词粒度关系:Paradigmatic(聚合关系:同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系:协同出现、用互信息挖掘))
(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46771791(特征选择方法(TF-IDF、CHI和IG))
(介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用)
二、数据预处理用到的(4. Dataset transformations):
http://blog.csdn.net/mmc2015/article/details/46991465(4.1. Pipeline and FeatureUnion: combining estimators(特征与预测器结合;特征与特征结合))
(特征与预测器结合、特征与特征结合)
http://blog.csdn.net/mmc2015/article/details/46992105(4.2. Feature extraction(特征提取,不是特征选择))
(loading features form dicts、feature hashing、text feature extraction、image feature extraction)
http://blog.csdn.net/mmc2015/article/details/46997379(4.2.3. Text feature extraction)
(text feature extraction)
http://blog.csdn.net/mmc2015/article/details/47016313(4.3. Preprocessing data(standardi/normali/binari..zation、encoding、missing value))
(Standardization, or mean removal and variance scaling(标准化:去均值、除方差)、Normalization(正规化)、Feature Binarization(二值化)、Encoding categorical features(编码类别特征)、imputation of missing values(归责缺失值))
http://blog.csdn.net/mmc2015/article/details/47066239(4.4. Unsupervised dimensionality reduction(降维))
(PCA、Random projections、Feature agglomeration(特征集聚))
http://blog.csdn.net/mmc2015/article/details/47069869(4.8. Transforming the prediction target (y))
(Label binarization、Lable encoding(transform non-numerical labels to numerical labels))
三、其他重要知识点:
http://blog.csdn.net/mmc2015/article/details/47099275(3.1. Cross-validation: evaluating estimator performance)
(交叉验证)
http://blog.csdn.net/mmc2015/article/details/47100091(3.2. Grid Search: Searching for estimator parameters)
(搜索最佳参数组合)
None、常用的监督非监督模型:
http://blog.csdn.net/mmc2015/article/details/46867597(2.5. 矩阵因子分解问题)
http://blog.csdn.net/mmc2015/article/details/47271039(scikit-learn(工程中用的相对较多的模型介绍):1.4. Support Vector Machines)
SVM(SVC、SVR)
http://blog.csdn.net/mmc2015/article/details/47271195(scikit-learn(工程中用的相对较多的模型介绍):1.11. Ensemble methods)
Bagging meta-estimator、Forests of ranomized trees、AdaBoost、Gradient Tree Boosting(Gradient Boosted Regression Trees (GBRT) )
http://blog.csdn.net/mmc2015/article/details/47333499(scikit-learn(工程中用的相对较多的模型介绍):1.12. Multiclass and multilabel algorithms)
Multiclass classification、Multilabel classification、Multioutput-multiclass classification and multi-task classification
http://blog.csdn.net/mmc2015/article/details/47333579(scikit-learn(工程中用的相对较多的模型介绍):1.13. Feature selection)
Univariate feature selection(单变量特征选择)、recursive feature elimination(递归特征消除)、L1-based / ree-based features selection(这个也用的比价多)、Feature selection as part of a pipeline
http://blog.csdn.net/mmc2015/article/details/47333839(
scikit-learn(工程中用的相对较多的模型介绍):1.14. Semi-Supervised
)http://blog.csdn.net/mmc2015/article/details/47414271(scikit-learn(工程中用的相对较多的模型介绍):2.3. Clustering(可用于特征的无监督降维))
- scikit-learn常用的一些函数及在实战中的用法
- scikit-learn常用的用法及问题
- scikit-learn的用法
- scikit-learn的用法
- scikit-learn一些常用算法
- [scikit-learn] 特征二值化编码函数的一些坑
- scikit-learn 中的随机森林用法
- scikit learn 中pca 的用法
- scikit-learn 常用分类算法的使用
- python及scikit-learn的安装
- 在python,Scikit-learn的SVM算法
- scikit-learn中的SVM
- scikit-learn 常用模型介绍及使用(上)
- scikit-learn 常用模型介绍及使用(下)
- scikit-learn的安装
- scikit -learn 的使用
- scikit-learn中关于SVM的一些常识
- scikit-learn的基本用法(四)——数据归一化
- bootstrap-table-demo说明
- Shiro浅显理解
- docker离线安装
- Java 程序连接 Informix 数据库方法实例介绍
- 关于input为color时绑定对应内容改变相应颜色
- scikit-learn常用的一些函数及在实战中的用法
- hive left join 条件on 和 where 的放置
- 五十种编程语言简介(1)
- (译) 在IOS中实现导入&导出文档
- js--打卡--11.27 toString方法的改造。
- Codeblocks-使用错误整理(1)cannot open output file
- 越狱手机修改ssh密码
- ubuntu编辑网络配置文件后如何保存?
- Java成员变量、局部变量、静态变量、成员方法、全局方法等概念的区别