[机器学习]Scikit-Learn模块学习笔记——数据集模块datasets
来源:互联网 发布:生化危机mac版 编辑:程序博客网 时间:2024/06/05 09:20
原文:http://www.cnblogs.com/zhuyuanhao/p/5383628.html“>Scikit-Learn模块学习笔记——数据集模块datasets
</div><!--end: blogStats --></div><!--end: navigator 博客导航栏 -->
<div class="postBody"> <div id="cnblogs_post_body" class="cnblogs-markdown"><p>scikit-learn 的 datasets 模块包含测试数据相关函数,主要包括三类:</p>
datasets.load_*()
:获取小规模数据集。数据包含在 datasets 里datasets.fetch_*()
:获取大规模数据集。需要从网络上下载,函数的第一个参数是 data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/。要修改默认目录,可以修改环境变量SCIKIT_LEARN_DATA
。数据集目录可以通过datasets.get_data_home()
获取。clear_data_home(data_home=None)
删除所有下载数据。datasets.make_*()
:本地生成数据集。
数据集格式
- tuple(X, y)
本地生成数据函数make_*
和load_svmlight_*
返回的数据是 tuple(X, y) 格式 Bunch
load_*
和fetch_*
函数返回的数据类型是 datasets.base.Bunch,本质上是一个 dict,它的键值对可用通过对象的属性方式访问。主要包含以下属性:- data:特征数据数组,是 n_samples * n_features 的二维 numpy.ndarray 数组
- target:标签数组,是 n_samples 的一维 numpy.ndarray 数组
- DESCR:数据描述
- feature_names:特征名
- target_names:标签名
获取小数据集
- load_boston():
房屋特征-房价,用于regression - load_diabetes():
糖尿病数据,用于 regression - load_linnerud():
Linnerud数据集,有多个标签,用于 multilabel regression - load_iris():
鸢尾花特征和类别,用于classification - load_digits([n_class]):
手写数字识别 - load_sample_images():
载入图片数据集,共两张图 - load_sample_image(name):
载入图片数据集中的一张图 - load_files(container_path, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error=’strict’, random_state=0):
从本地目录获取文本数据,并根据二级目录做分类
获取大数据集
- load_mlcomp(name_or_id, set_=’raw’, mlcomp_root=None, **kwargs):
从 http://mlcomp.org/ 上下载数据集 - fetch_california_housing(data_home=None, download_if_missing=True)
- fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0, download_if_missing=True):
Olivetti 脸部图片数据集 - fetch_lfw_people(data_home=None, funneled=True, resize=0.5, min_faces_per_person=0, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True):
- fetch_lfw_pairs(subset=’train’, data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True):
Labeled Faces in the Wild (LFW) 数据集,参考 LFW - fetch_20newsgroups(data_home=None, subset=’train’, categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True)
- fetch_20newsgroups_vectorized(subset=’train’, remove=(), data_home=None):
新闻分类数据集,数据集包含 ‘train’ 部分和 ‘test’ 部分。 - fetch_rcv1(data_home=None, subset=’all’, download_if_missing=True, random_state=None, shuffle=False):
路透社新闻语聊数据集 - fetch_mldata(dataname, target_name=’label’, data_name=’data’, transpose_data=True, data_home=None):
从 mldata.org 中下载数据集。参考 PASCAL network - mldata_filename(dataname):
将 mldata 的数据集名转换为下载的数据文件名 - fetch_covtype(data_home=None, download_if_missing=True, random_state=None, shuffle=False)
Forest covertypes 数据集
本地生成数据
回归(regression)
- make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)
- make_sparse_uncorrelated(n_samples=100, n_features=10, random_state=None)
- make_friedman1(n_samples=100, n_features=10, noise=0.0, random_state=None)
- make_friedman2(n_samples=100, noise=0.0, random_state=None)
- make_friedman3(n_samples=100, noise=0.0, random_state=None)
分类(classification)
单标签
- make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None):
生成 classification 数据集。包含所有的设置,可以包含噪声,偏斜的数据集 - make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None):
生成 classification 数据集。数据服从高斯分布
centers 可以是整数,表示中心点个数,或者用列表给出每个中心点的特征值
cluster_std 可以是浮点数或浮点数列表
random_state 可以是整数,表示随机起始 seed,或者 RandomState 对象,默认使用 np.random - make_gaussian_quantiles(mean=None, cov=1.0, n_samples=100, n_features=2, n_classes=3, shuffle=True, random_state=None):
- make_hastie_10_2(n_samples=12000, random_state=None):
- make_circles(n_samples=100, shuffle=True, noise=None, random_state=None, factor=0.8):
make_moons(n_samples=100, shuffle=True, noise=None, random_state=None):
多标签
make_multilabel_classification(n_samples=100, n_features=20, n_classes=5, n_labels=2, length=50, allow_unlabeled=True, sparse=False, return_indicator=’dense’, return_distributions=False, random_state=None):
生成 multilabel classification 数据集。双聚类(bicluster)
- make_biclusters(shape, n_clusters, noise=0.0, minval=10, maxval=100, shuffle=True, random_state=None):
make_checkerboard(shape, n_clusters, noise=0.0, minval=10, maxval=100, shuffle=True, random_state=None):
流形学习(manifold learning)
- make_s_curve(n_samples=100, noise=0.0, random_state=None)
- make_swiss_roll(n_samples=100, noise=0.0, random_state=None)、
可降维(decomposition)数据
- make_low_rank_matrix(n_samples=100, n_features=100, effective_rank=10, tail_strength=0.5, random_state=None)
- make_sparse_coded_signal(n_samples, n_components, n_features, n_nonzero_coefs, random_state=None)
- make_spd_matrix(n_dim, random_state=None)
- make_sparse_spd_matrix(dim=1, alpha=0.95, norm_diag=False, smallest_coef=0.1, largest_coef=0.9, random_state=None)
0 0
- [机器学习]Scikit-Learn模块学习笔记——数据集模块datasets
- Scikit-Learn模块学习笔记——数据集模块datasets
- Python scikit-learn机器学习工具包学习笔记:cross_validation模块
- Python scikit-learn机器学习工具包学习笔记:feature_selection模块
- Python scikit-learn机器学习工具包学习笔记:cross_validation模块
- Python scikit-learn机器学习工具包学习笔记:cross_validation模块
- Python scikit-learn机器学习工具包学习笔记:cross_validation模块
- Python scikit-learn机器学习工具包学习笔记:cross_validation模块
- Python scikit-learn机器学习:feature_selection模块
- python中Scikit-Learn机器学习模块
- scikit-learn机器学习模块(上)
- scikit-learn机器学习模块(下)
- Python中常用的机器学习模块——Scikit-Learn
- Scikit-Learn:开源的机器学习Python模块
- Scikit-Learn:开源的机器学习Python模块
- Scikit-Learn:开源的机器学习Python模块
- Windows下使用Python安装机器学习模块scikit-learn
- 机器学习笔记——Scikit-learn库中的数据预处理(一)
- 关于struts2 中action 属性没有 set 方法 依然会注入值的问题(解决)
- bzoj1192: [HNOI2006]鬼谷子的钱袋
- phpstudy占用端口的解决方法
- ## Hibernate框架第一天 ##
- Android各种访问权限Permission详解
- [机器学习]Scikit-Learn模块学习笔记——数据集模块datasets
- java爬虫
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现
- 会计核算方法
- Java基础类---String类
- 欢迎使用CSDN-markdown编辑器
- 在线网页绘制可视化 Caffe 网络结构
- 2016CCCC天梯--多项式A除以B
- 如何向 Linux Kernel 提交 Patch