机器学习笔记-分类和聚类基本概念
来源:互联网 发布:python教程视频教程 编辑:程序博客网 时间:2024/06/05 12:46
参考知乎回答
分类
分类是数据挖掘中的一项非常重要的任务,利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。
分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。
分类分为有监督,无监督,半监督,分别对应有无标签为-有-无-有一点有监督就是样本数据给定所有标签,然后去训练分类器,这是能达到最高精度的一种无监督也就是通常意义上的聚类,只给数据,不给标签半监督这个厉害了,绝大多数数据不给标签,然后给一小部分数据贴上标签,再送分类器里面,用有监督的方式解决偏聚类问题!
所以日常生活中最多的是半监督分类,比较贴近现实,因为实际生活中,我们获取的数据很多都是未知标签的,然而通过一些渠道我们可以得到一点数据,这就是要用到半监督了,分类算法很多,self-training,主动学习,等等自己看需求。
聚类
在机器学习中,聚类是一种无指导学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。
聚类的意义就在于将观察到的内容组织成类分层结构,把 类似的事物组织在一起。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的关系。
常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。
数据降维
刚才从三维到二维,就是进行了’降维打击‘,为什么要进行降维打击呢,这就牵扯到‘维数爆炸’理论了,又跑题了,,,,反正你知道,现实中的数据,无一例外(绝大多数),特别是高维数据(这里的维就是指特征),都是要经过’降维打击‘后再进行处理的。
- 机器学习笔记-分类和聚类基本概念
- 【机器学习 基本概念】朴素贝叶斯分类
- 机器学习基本概念(分类方法):Bayes、PCA、LDA 和 K-means
- 机器学习基础学习笔记1-基本概念
- 数据结构笔记一:基本概念和分类
- 机器学习----笔记之基本概念(1)
- 机器学习基本概念心得笔记(一)
- 机器学习一些基本概念(笔记)
- 模式分类和机器学习
- 机器学习---分类和测度
- 数据挖掘和机器学习的基本概念
- 大数据和机器学习等基本概念
- 《机器学习》学习笔记_1.机器学习的分类
- 机器学习基石学习笔记1 机器学习及其分类
- 黑马程序员---C语言学习笔记之数组的基本概念和分类
- 机器学习笔记_ch4_分类算法
- 机器学习笔记2——分类
- 机器学习笔记(七)贝叶斯分类器
- Mac安装NLTK报Uninstalling six-1.4.1错误
- API接口[详情版]
- PHP文件系统
- Python3爬虫之图片防盗链破解
- (CodeForces
- 机器学习笔记-分类和聚类基本概念
- cdh5.8.3集成solr4.10.3创建core时报错 Could not start Solr. Check solr/home property and the logs
- Codeforces Round #433 (Div. 2, based on Olympiad of Metropolises) A. Fraction
- substance.jar
- Codeforces Round #433 (Div. 2, based on Olympiad of Metropolises) B. Maxim Buys an Apartment
- ORACLE除数为0报错需处理与null值处理小记
- java学习第20天
- (CodeForces
- Redis 在Linux下的基本安装和使用