短文本相似度度量

来源:互联网 发布:时间服务器地址端口 编辑:程序博客网 时间:2024/04/28 04:16

短文本语义相似度度量

基于深度学习的短文的语义相似度计算

依存句法分析

依存句法分析是一种常用的句子结构的表达方式。在依存句法中,句子的结构是以其谓语为中心,词语之间的相互依存而构成的树形结构。依存句法分析可以获得词语间的修饰关系,有助于分析句子的结构及其所报含的信息。
常用的依存句法分析模型可以分为两个大类

  • 基于图模型,比较常见的实现是哈工大的LTP以及MTPParser

  • 基于转移模型,具有线性时间复杂度,在精度略微降低的情况下处理速度远高于图模型

词向量化表示

在主题模型方面,LSA[12]使用矩阵奇异值分解将文本语词频进行分解,得到文档的向量表示以及词语向量的表示。PLSA[12]将每个词语生成的过程抽象成多项式分布中抽样,使得文本的向量表示以及词语向量表示都有概率的解释。PLSA在训练时使用EM15估计文本在主题空间的分布矩阵以及主题在词语空间的分布矩阵.
LDA 在PLSA中的多项式分布基础上加上Dirchelet共轭先验分布13,类似于贝叶斯估计相比于极大似然估计的有点,相比于PLSA更加灵活,并且可以使用一直的数据估计其他文档的主题分布。通常LDA中的模型的各个参数可以使用Gibbs Samling的方式估计得到。

softmax??

这里写图片描述

面向微博短文的细粒度情感分析特征抽取方法

该本利用不同的方法对文本特征进行抽取,包括:

  • TF方法
  • CHI方法
  • TF-IDF
  • D(DF)
  • D(IF-IDF)结合方差统计方法和各分类TF-IDF权重计算方法。先计算各特征项在子分类中的TF-IDF值在对TF-IDF值计算方法,并根据大小排序
    LDA 与有监督方法进行结合 来进行话题的识别或者分类是不是效果更好

在处理文本数据时,常用的词频逆向文档频率作为特征选取的方法,TF-IDF 值作为词项权重值。然而对于短文数据,词项的TF基本近似为1,即TF-IDF值近似等同于IDF,因此单纯在短文上使用TF-IDF是不合适。

基于特征迭代的短文去重算法

simhash算法:
1、海量数据相似度计算之simhash和海明距离
2、simhash算法原理及实现
3、A Python Implementation of Simhash Algorithm
4、python-hashes
5、simhash
6、海量数据相似度计算之simhash短文本查找
7、Python hashlib

Hash表:
布隆过滤器
http 头信息

SNN算法
DBSCAN 算法
DBSCAN算法实现

0 0
原创粉丝点击