华盛顿大学机器学习3:聚类和相似度
来源:互联网 发布:unity3d下载 编辑:程序博客网 时间:2024/05/28 15:55
- 用户读了一篇文章,找出另外一篇用户感兴趣的文章
- 词袋模型:打乱单词顺序,首先计算出每个单词在文章中出现的次数。为了考虑每个单词在词袋中出现的次数,首先建立一个向量。
- 怎么样使用向量来度量相似度?
简单的计算两个向量之间的点乘。就是相对应位置的元素乘积,再将乘积相加,但是这种方法计算相似度对于文章单词特别多,文章很长的有好处 - (怎样去解决文章单词量不同计算对于计算相似度的影响)
为了避免上述问题,我们归一化向量,利用单词统计量这个向量计算向量的范数(计算向量中元素的平方和再取其平方根)
这样就可以使不同长度的文章让其处于同等地位。
5.(文章中关键词的处理)
有些单词(英语中的the,a等,中文中的‘的’)这些词会出现在很多的文档中。与之相对的,文章中可能有些生僻的词不常见,某个人的名字等,这些单词的数目完全被常用词淹没了
(怎么样处理这些很重要的生僻词汇,使其不至于被常用词淹没呢(因为这些生僻词汇正是文章的独到之处))
6.生僻词的特征:在词汇库中很少见,我们需要设法增加这些词汇的权重,等价的强调仅在文档部分出现的词,
7.在文档中重要的单词
我们要权衡考虑的是在文档中出现频率很高(局部常见),在语料库中相对少见。我们要做的是权衡这两种关系
8.一种表示在“局部常用和全局罕见间的权衡”称为:TF-IDF或者词频-逆向文件频率法
9***.TF-IDF***方式:
首先,只考虑某人正在阅读的文章,考虑词汇出现的次数、
然后,逆向文件表示是考虑语料库中的所有文档计算这个数字
利用这个公式,会减少常用词的影响,比如分子是会经常出现的单词(large number),那么分母的出现次数也会很多(large number),那么计算式的结果约等于1,再取其对数就约等于0.这样就会极大的减少那些出现频率很高的单词哦,将那些经常出现的单词的权重降低为0。
利用这个式子计算生僻词汇结果就是一个很大的数。分母中的1是为了避免除以0.
10.比如对于the的逆向词频计算,假设语料库中的所有文档数目是64,有63篇文档用到the(在这64篇中),那么上面的逆向词频的计算结果就约等于0
相乘得到如下矩阵 - 目前使用的比较多的是最近邻搜索,就是从语料库中找出相似度最高的文章
- 对文章进行聚类,辨别出不同类型的文章
有一篇未知是什么类型的文章,然后我们又有一些标记好的文件。 - 现在假定有预设的标签,打算推断出来相关文章的分组,也就是推断出相关文章的集群
问题:打算推断出相关文章的分组(集群)
输入量:向量
每一个观测量:字数向量
集群的分类标准:用到的度量标准是只看与集群中心的距离
K-MEANS
1:我们首先有给定的K个集群,我们会看每个集群的平均值,只考虑集群中心,以此中心为数据点分到不同的集群中
2:聚类的应用:图像搜索;对不同疾病的病人进行分类,用于更好的特征化病种和不同的疾病;网商加标签,发现关联商品
3:房屋预测:对相同趋势的区域进行聚类,在集群内实现信息共享(根据不同社区的犯罪情况,优化其警力调动)
4:聚类算法过程(无监督学习)
训练数据:文件和文件对应的文本
特征量:使用tf-idf词频-逆向量文档频率法(把特征量放入机器学习的模型中)
输出:根据特征量对其输出标签输出的是聚类标签(需要用一种方法评估我们的聚类准确度)
评估准确度的方法:测量每个观测点到其所在集群的距离(一个好的聚类算法这些距离会很小)
阅读全文
0 0
- 华盛顿大学机器学习3:聚类和相似度
- 华盛顿大学机器学习课程(个案研究法)
- 华盛顿大学机器学习基础:案例研究week2
- 华盛顿大学--初探深度学习
- 机器学习入门- 聚类和相似度(文档检索)
- 华盛顿大学2:分类学习笔记
- 数据挖掘和机器学习中距离和相似度公式
- 机器学习相似度度量
- 机器学习之&&距离和相似度度量
- 【转载】机器学习计算距离和相似度的方法
- 机器学习相似度计算方法选择理论依据
- 机器学习的相似度度量
- 机器学习中的各种相似度度量
- Spark机器学习:同现相似度矩阵
- 机器学习中的相似度测量
- 机器学习中的相似度度量
- 数学之路(3)-机器学习(3)-机器学习算法-余弦相似度(3)
- 数学之路(3)-机器学习(3)-机器学习算法-余弦相似度(1)
- 常用数据库 JDBC URL 格式
- 插入排序 c++实现
- 编程思想 之「控制流程」
- WebSocket聊天室的实现
- HTML name、id、class 的区别
- 华盛顿大学机器学习3:聚类和相似度
- pattern和match的用法
- Cannot read property 'glob' of null
- 关于输入阻抗和输出阻抗的理解
- 出门没有网络? 这款小程序让你蹭WIFI不求人
- 大数据WEB阶段Spring框架(一)IOC控制反转、DI注入依赖
- 每天一个linux命令(11):nl命令
- 【读书笔记】iOS-报刊杂志-Newsstand应用编程
- 韩国版“微信”Kakao也准备上市,背后的股东有腾讯