推荐系统-文本相似性计算(2)
来源:互联网 发布:迅雷极速版 mac 编辑:程序博客网 时间:2024/05/22 02:08
1. 主题模型(Topic Model)
首先,你想好题目以后会想一些提纲,比如我想我会写一下
主题模型
,然后写词向量
,这两个就是我的主题了。然后,我开始写了,写
主题模型
的时候,我的一些词语都是和主题模型相关的,比如LDA
,分类
,主题
,概率
啊等等,然后写词向量
的时候也会有这么一些词,这些就是主题下的词语。最后,我就是按照上面的两条规则把文章写完了。
首先,定两个主题,然后把每个词都分到某一个主题下
开始写作的时候就是先找个主题,然后在主题下找个词,然后写出来
循环到上一步,就是这样么一直写,然后一篇文章就写好了
首先随机指定每个词属于某个主题,那么假设设定完了以后P(W|T)的矩阵就是
然后随机的指定每个主题对应的文档概率,P(T|D)的矩阵就是
然后拿第一篇文章的第一个词出来,统计出来他在这篇文章出现的概率,也就是0.5,再给他随机拍一个主题,比如T1
用上述的计算出来的话
0.0*0.5=0.0
,而我们统计出来是0.5啊,这不对,我们再试试别的主题,比如T2,这么算出来0.33*0.5=0.165
,也不对啊,但比T1好像要靠谱一点,那我们按照这个调整一下上面两个表格的数字吧,比如把那个0.0改成0.2之类的(具体怎么调?呵呵呵,靠说人话我说不出来了,看后面的链接吧)。这么一个一个词下来,上面两个表格就在不断更新,然后我们一遍一遍的循环迭代,直到上面两个表格能满足所有文档所有词要求了就结束了。放心,不会死循环的。
新来的文章我们要对这篇文章进行分类的话,先统计出P(W(词)|D(文章)),然后用P(W(词)|D(文章))去除以P(W(词)|T(主题)) ,就得到了这篇文章所属的每个主题的概率了。
然后我们还可以把新文章也放进模型中继续训练,然后又得到一个更新了的表格,这样不断有文章进来,表格就不断变化了。
http://www.52nlp.cn/%E8%BD%AC%E8%BD%BD-topic-modeling-made-just-simple-enough
http://emma.memect.com/t/9756da9a47744de993d8df13a26e04e38286c9bc1c5a0d2b259c4564c6613298/LDA 《LDA数学八卦》
http://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a?pn=3&pa=3 《LDA漫游指南》
2. 词向量
假设有这么一句话
我爱北京天安门
,我们先给每个词编个号,我1,爱2,北京3,天安门4。然后,我们扫描这个句子的每个词,找和他相邻的两个词,分别是他前面一个和后面一个,那么一轮下来,我们得到一个这样的东西:
1(2),2(1,3),3(2,4),4(3)
,这表示什么?表示每个词和他有两个相关的词,如果我们有大量的句子,那么可以得到非常多的上述关系表达式。然后呢?然后我们设定一个向量的维度,也就是每个词我们可以用几个维度来表示。
再然后呢?再然后就上神经网络了,这东西啊,如果你知道逻辑回归这种机器学习的方法的话,再假设逻辑回归是物理电路中的一条回路的话,那神经网络就是把逻辑回归这种回路串联并联起来的东西。也就是
逻辑回归的逻辑回归的逻辑回归【这句话不是我总结的,我忘了在哪看到过了,觉得挺形象】
。最后呢?最后每个词就成了一个向量了。
总结
- 推荐系统-文本相似性计算(2)
- 推荐系统-文本相似性计算(1)
- 推荐系统-文本相似性计算(3)
- 推荐系统技术之文本相似性计算(三)
- 利用sklearn计算文本相似性
- LSHForest进行文本相似性计算
- 利用余弦计算文本相似性
- 推荐系统中的相似性度量
- 余弦相似性的文本计算思想
- 利用编辑距离计算文本相似性
- 文本相似性检测---词语权重计算
- java实现余弦计算文本相似性
- 文本去重第一步:基于内容的文本相似性计算
- 相似性计算
- Python 比较文本相似性(difflib,Levenshtein)
- 计算文档相似性算法(一)
- 文本相似性检测算法
- 7个开源的TTS(文本转语音)系统推荐
- 191. Number of 1 Bits
- 报错Unsupported major.minor version 52.0
- js验证电子邮箱
- 动态规划问题
- Extjs中Form表单combobox重置后初始化值为空问题解决
- 推荐系统-文本相似性计算(2)
- js实现正则表达式验证账号是否合法
- 线程的创建和启动
- linux中编程起步
- 垃圾收集算法----前言
- ExtJs知识点概述
- C++--memset与sizeof
- js实现正则表达式验证邮箱
- c# sql 放进参数