text matching

来源：互联网发布：淘宝中老年女装模特编辑：程序博客网时间：2024/05/29 12:19

本文章记录关于text matching相关文章的记录：
前提概述：
text matching是一种端到端的文本匹配的算法，主要用与搜索引擎，问答系统等，主要是为了找到与目标文本最相关的文本。如和问题最相关的答案，在搜索引擎中找到与搜索框中关键词最相关的网页等。

MatchPyramid
文章来源：Text Matching as Image Recognition
主要方法：构建文本与文本的相似矩阵，采用CNN对矩阵进行score，score越高的值对应的文本与文本直接相关性越高。
算法架构：输入：两个文本。
1）基于glove得到两文本的每个词的embedding。
2）构建两个文本的相似矩阵。
3）把相似矩阵放入两层CNN中。
4）把CNN的结果放入两层的感知机中。
5）获得二分类的score。
相似矩阵的构建方法：
法1：构建Indicator function：

M i j = {10 if w i = v j otherwise

法2：构建词向量

αi,βj 表示

wi和

vj则采用余弦相似性或者点乘的方式表达M即：

M i j = α ⃗ T β ⃗ | | α ⃗ | | \cdot | | β ⃗ | |

M i j = α ⃗ T β ⃗

DRMM(deep relevance matching model)
文章来源A Deep Relevance Matching Model for Ad-hoc Retrieval

point1: 现在的基于deep的文本匹配的大致模型如下：

m a t c h (T 1, T 2) = F (ϕ (T 1), ϕ (T 2))

其中，ϕ 是关于text的映射函数，通过ϕ可以把text进行向量化表示。F函数是对映射之后两文本关联性的打分。

主要方法：主要用于问答相关的长短文本匹配，在进行匹配之前，先对问题文本即短文本进行重构，把embed的向量重构之后得到文本新的表征，再进行匹配。
算法架构：1）query 和 document embedding
2）对query的embedding进行重构
3）query

阅读全文

0 0