华盛顿大学机器学习3：聚类和相似度

来源：互联网发布：unity3d下载编辑：程序博客网时间：2024/05/28 15:55

用户读了一篇文章，找出另外一篇用户感兴趣的文章
词袋模型：打乱单词顺序，首先计算出每个单词在文章中出现的次数。为了考虑每个单词在词袋中出现的次数，首先建立一个向量。
怎么样使用向量来度量相似度？

简单的计算两个向量之间的点乘。就是相对应位置的元素乘积，再将乘积相加，但是这种方法计算相似度对于文章单词特别多，文章很长的有好处
（怎样去解决文章单词量不同计算对于计算相似度的影响）
为了避免上述问题，我们归一化向量，利用单词统计量这个向量计算向量的范数（计算向量中元素的平方和再取其平方根）

这样就可以使不同长度的文章让其处于同等地位。
5.（文章中关键词的处理）
有些单词（英语中的the，a等，中文中的‘的’）这些词会出现在很多的文档中。与之相对的，文章中可能有些生僻的词不常见，某个人的名字等，这些单词的数目完全被常用词淹没了
（怎么样处理这些很重要的生僻词汇，使其不至于被常用词淹没呢（因为这些生僻词汇正是文章的独到之处））
6.生僻词的特征：在词汇库中很少见，我们需要设法增加这些词汇的权重，等价的强调仅在文档部分出现的词，
7.在文档中重要的单词
我们要权衡考虑的是在文档中出现频率很高（局部常见），在语料库中相对少见。我们要做的是权衡这两种关系
8.一种表示在“局部常用和全局罕见间的权衡”称为：TF-IDF或者词频-逆向文件频率法
9***.TF-IDF***方式：
首先，只考虑某人正在阅读的文章，考虑词汇出现的次数、
然后，逆向文件表示是考虑语料库中的所有文档计算这个数字

利用这个公式，会减少常用词的影响，比如分子是会经常出现的单词（large number），那么分母的出现次数也会很多（large number），那么计算式的结果约等于1，再取其对数就约等于0.这样就会极大的减少那些出现频率很高的单词哦，将那些经常出现的单词的权重降低为0。
利用这个式子计算生僻词汇结果就是一个很大的数。分母中的1是为了避免除以0.
10.比如对于the的逆向词频计算，假设语料库中的所有文档数目是64，有63篇文档用到the（在这64篇中），那么上面的逆向词频的计算结果就约等于0

相乘得到如下矩阵
目前使用的比较多的是最近邻搜索，就是从语料库中找出相似度最高的文章
对文章进行聚类，辨别出不同类型的文章
有一篇未知是什么类型的文章，然后我们又有一些标记好的文件。
现在假定有预设的标签，打算推断出来相关文章的分组，也就是推断出相关文章的集群

问题：打算推断出相关文章的分组（集群）
输入量：向量
每一个观测量：字数向量
集群的分类标准：用到的度量标准是只看与集群中心的距离
K-MEANS
1：我们首先有给定的K个集群，我们会看每个集群的平均值，只考虑集群中心，以此中心为数据点分到不同的集群中
2：聚类的应用：图像搜索；对不同疾病的病人进行分类，用于更好的特征化病种和不同的疾病；网商加标签，发现关联商品
3：房屋预测：对相同趋势的区域进行聚类，在集群内实现信息共享（根据不同社区的犯罪情况，优化其警力调动）
4：聚类算法过程（无监督学习）
训练数据：文件和文件对应的文本
特征量：使用tf-idf词频-逆向量文档频率法（把特征量放入机器学习的模型中）
输出：根据特征量对其输出标签输出的是聚类标签（需要用一种方法评估我们的聚类准确度）
评估准确度的方法：测量每个观测点到其所在集群的距离（一个好的聚类算法这些距离会很小）

阅读全文

0 0