华盛顿大学机器学习3:聚类和相似度

来源:互联网 发布:unity3d下载 编辑:程序博客网 时间:2024/05/28 15:55
  1. 用户读了一篇文章,找出另外一篇用户感兴趣的文章
  2. 词袋模型:打乱单词顺序,首先计算出每个单词在文章中出现的次数。为了考虑每个单词在词袋中出现的次数,首先建立一个向量。
  3. 怎么样使用向量来度量相似度?
    这里写图片描述
    简单的计算两个向量之间的点乘。就是相对应位置的元素乘积,再将乘积相加,但是这种方法计算相似度对于文章单词特别多,文章很长的有好处
  4. (怎样去解决文章单词量不同计算对于计算相似度的影响)
    为了避免上述问题,我们归一化向量,利用单词统计量这个向量计算向量的范数(计算向量中元素的平方和再取其平方根)
    归一化向量方式
    这样就可以使不同长度的文章让其处于同等地位。
    5.(文章中关键词的处理)
    有些单词(英语中的the,a等,中文中的‘的’)这些词会出现在很多的文档中。与之相对的,文章中可能有些生僻的词不常见,某个人的名字等,这些单词的数目完全被常用词淹没了
    (怎么样处理这些很重要的生僻词汇,使其不至于被常用词淹没呢(因为这些生僻词汇正是文章的独到之处))
    6.生僻词的特征:在词汇库中很少见,我们需要设法增加这些词汇的权重,等价的强调仅在文档部分出现的词,
    7.在文档中重要的单词
    我们要权衡考虑的是在文档中出现频率很高(局部常见),在语料库中相对少见。我们要做的是权衡这两种关系
    8.一种表示在“局部常用和全局罕见间的权衡”称为:TF-IDF或者词频-逆向文件频率法
    9***.TF-IDF***方式:
    首先,只考虑某人正在阅读的文章,考虑词汇出现的次数、
    然后,逆向文件表示是考虑语料库中的所有文档计算这个数字
    逆向词频计算
    利用这个公式,会减少常用词的影响,比如分子是会经常出现的单词(large number),那么分母的出现次数也会很多(large number),那么计算式的结果约等于1,再取其对数就约等于0.这样就会极大的减少那些出现频率很高的单词哦,将那些经常出现的单词的权重降低为0。
    利用这个式子计算生僻词汇结果就是一个很大的数。分母中的1是为了避免除以0.
    10.比如对于the的逆向词频计算,假设语料库中的所有文档数目是64,有63篇文档用到the(在这64篇中),那么上面的逆向词频的计算结果就约等于0
    这里写图片描述
    相乘得到如下矩阵
    上面两个矩阵相乘得到的结果
  5. 目前使用的比较多的是最近邻搜索,就是从语料库中找出相似度最高的文章
  6. 对文章进行聚类,辨别出不同类型的文章
    有一篇未知是什么类型的文章,然后我们又有一些标记好的文件。
  7. 现在假定有预设的标签,打算推断出来相关文章的分组,也就是推断出相关文章的集群

问题:打算推断出相关文章的分组(集群)
输入量:向量
每一个观测量:字数向量
集群的分类标准:用到的度量标准是只看与集群中心的距离
K-MEANS
1:我们首先有给定的K个集群,我们会看每个集群的平均值,只考虑集群中心,以此中心为数据点分到不同的集群中
2:聚类的应用:图像搜索;对不同疾病的病人进行分类,用于更好的特征化病种和不同的疾病;网商加标签,发现关联商品
3:房屋预测:对相同趋势的区域进行聚类,在集群内实现信息共享(根据不同社区的犯罪情况,优化其警力调动)
4:聚类算法过程(无监督学习)
训练数据:文件和文件对应的文本
特征量:使用tf-idf词频-逆向量文档频率法(把特征量放入机器学习的模型中)
输出:根据特征量对其输出标签输出的是聚类标签(需要用一种方法评估我们的聚类准确度)
评估准确度的方法:测量每个观测点到其所在集群的距离(一个好的聚类算法这些距离会很小)

原创粉丝点击