文章学习和解读
来源:互联网 发布:vasp5.2软件下载 编辑:程序博客网 时间:2024/06/04 19:37
文章原址:https://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=205093535&idx=1&sn=3dffe164ea2c44a8b258cd323a40f80f&scene=1&srcid=0217eHvff68IpIdPHR0OeMh7&pass_ticket=gzuHripJfZcuK92iJ3CAhwjD2GobKkjvJE2s%2BPpn2V1ecy4PsdshIkTr3j8bA623#rd
1,前置知识储备
tf-idf算法的来源和推导,详见博客,http://www.ahathinking.com/ 2012年的博文《TF-IDF起源和理论推导》(http://www.ahathinking.com/archives/163.html)
2,TF-IDF 算法,简单来说就是用词频和反文档频率来衡量。TFIDF=TF*IDF
3,向量空间模型 VSM 应用于著名的SMART文本检索,向量空间模型 (或词组向量模型) 是一个应用于信息过滤,信息撷取,索引 以及评估相关性的代数模型。文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。
①两个向量的数量积(内积、点积)是一个数量(没有方向),记作a·b。若a、b不共线,则
4,相似性度量,数值数据是度量其在欧式空间的距离,分类型的数据,这是与其“取值相同的属性个数“有关。
***总结
实际问题:文章相似度,文档分类,关键词排名
原理:将文档视作文档空间的向量,度量向量之间的相似性,去给文档分类。
方法:最常用的是余弦距离。
重点!!!
看了两天的文章,就是为了看懂这么点东西。。。呵呵
文本相似度计算的处理流程是:
1.对所有文章进行分词
2.分词的同时计算各个词的tf值
3.所有文章分词完毕后计算idf值
4.生成每篇文章对应的n维向量(n是切分出来的词数,向量的项就是各个词的tf-idf值)
5.对文章的向量两篇两篇代入余弦定理公式计算,得出的cos值就是它们之间的相似度了
接下来解决的是怎么实现的问题了。
4,余弦算法:http://my.oschina.net/BreathL/blog/42477
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html(TF-IDF算法与余弦算法的应用-找出相似的文章)
5,文本相似度算法
http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html
- 文章学习和解读
- YOLO2 文章解读
- EBS profile解读和GL学习小结
- Kotlin学习博客和文章
- 提升文学素养【文章解读】
- 李航博士的《浅谈我对机器学习的理解》--文章部分解读
- Django学习:修改文章和添加文章(11)
- 一篇文章为你解读大数据的现在和未来
- 一篇文章为你解读大数据的现在和未来
- 一篇文章解读提速、降费黑科技:PCDN定义、功能、架构、场景和优势
- LDA学习必看文章和代码
- RBM学习的重要网址和文章
- 机器学习推荐的论文和文章
- android学习地址和文章总结
- Android学习博客和文章存档
- 前端学习博客和文章存档
- Java学习博客和文章存档
- IOS学习博客和文章存档
- CentOS 设置redis为服务
- 自己挑出的几个windows xp、7、8.0、10的纯净版官方镜像下载地址
- Warehouse Management Label Printing Function Setting Up
- “万能makefile”写法详解,一步一步写一个实用的Makefile
- Lua基础 函数(一)
- 文章学习和解读
- Android蓝牙通信
- [UnityUI]UGUI自适应
- HDU 3829 - Cat VS Dog【二分图最大匹配最大独立集】
- Docker 学习(1)
- 对String的深入理解
- cocos2dx常见的46中+22中动作详解
- Python __str__(self)和__unicode__(self)
- 2016蓝桥杯算法提高——P1001(大数乘法)