短文本相似度度量

来源：互联网发布：时间服务器地址端口编辑：程序博客网时间：2024/04/28 04:16

短文本语义相似度度量

基于深度学习的短文的语义相似度计算

依存句法分析

依存句法分析是一种常用的句子结构的表达方式。在依存句法中，句子的结构是以其谓语为中心，词语之间的相互依存而构成的树形结构。依存句法分析可以获得词语间的修饰关系，有助于分析句子的结构及其所报含的信息。
常用的依存句法分析模型可以分为两个大类

基于图模型，比较常见的实现是哈工大的LTP以及MTPParser
基于转移模型，具有线性时间复杂度，在精度略微降低的情况下处理速度远高于图模型

词向量化表示

在主题模型方面，LSA[12]使用矩阵奇异值分解将文本语词频进行分解，得到文档的向量表示以及词语向量的表示。PLSA[12]将每个词语生成的过程抽象成多项式分布中抽样，使得文本的向量表示以及词语向量表示都有概率的解释。PLSA在训练时使用EM算法15估计文本在主题空间的分布矩阵以及主题在词语空间的分布矩阵.
LDA 在PLSA中的多项式分布基础上加上Dirchelet共轭先验分布13,类似于贝叶斯估计相比于极大似然估计的有点，相比于PLSA更加灵活，并且可以使用一直的数据估计其他文档的主题分布。通常LDA中的模型的各个参数可以使用Gibbs Samling的方式估计得到。

softmax??

这里写图片描述

面向微博短文的细粒度情感分析特征抽取方法

该本利用不同的方法对文本特征进行抽取，包括：

TF方法
CHI方法
TF-IDF
D（DF）
D（IF-IDF)结合方差统计方法和各分类TF-IDF权重计算方法。先计算各特征项在子分类中的TF-IDF值在对TF-IDF值计算方法，并根据大小排序
LDA 与有监督方法进行结合来进行话题的识别或者分类是不是效果更好

在处理文本数据时，常用的词频逆向文档频率作为特征选取的方法，TF-IDF 值作为词项权重值。然而对于短文数据，词项的TF基本近似为1，即TF-IDF值近似等同于IDF，因此单纯在短文上使用TF-IDF是不合适。

基于特征迭代的短文去重算法

simhash算法：
1、海量数据相似度计算之simhash和海明距离
2、simhash算法原理及实现
3、A Python Implementation of Simhash Algorithm
4、python-hashes
5、simhash
6、海量数据相似度计算之simhash短文本查找
7、Python hashlib

Hash表：
布隆过滤器
http 头信息

SNN算法
DBSCAN 算法
DBSCAN算法实现

0 0