2016-12-14

来源：互联网发布：声优训练软件编辑：程序博客网时间：2024/06/01 11:04

今天的工作内容：

一，大概看了之前下载的两篇关于short text相似度的文章，第一篇文章较早，主要是介绍了对短文本相似度一些定义方面的内容，如何定义两个句子是相似的还是相关的，相似的程度等等，并提出了一个人工标注的数据集，之后可以再详细看一下其中对相似度的介绍。第二篇文章是用embedding的方式来做短文本相似度，其中对短文本相似度的方法做了一些简要的分类，大致上可以分为：字符串匹配，语法匹配，基于外部知识的匹配，以及分布式表示的匹配。文章中主要采用了分布式匹配的方法，并且将各种特征进行融合的方式来计算两个句子的相似度，本质上是一个逻辑回归问题，score(f(sen_pair))), sen_pair是一对句子，f()表示提取其特征，最后利用有监督学习的方法来计算其相似度。之后可以详细地看其计算方法。

二，熟悉了一下word2vec的基本原理和方法，主要是CBOW和SKIP_GRAM, CBOW只有输入词向量，而SKIP_GRAM则有输入和输出词向量，之后可以将其融合一下。两种方法都可以采用层级softmax和负样本采样两种方法来分别训练。之后的打算是熟悉tensorflow的代码，并准备在中文和公司的语料上尝试训练一下。

三，感觉公司给定句子后自动分析处语义信息（人工规则和模板）需要大量的人力而且也不是特别的准确，会不会对后续的训练产生影响，初步的打算是利用之前提到的learning to rank的方法来做，可以尝试普通的sentence_to_embedding等方法看有什么效果，能不能实现无监督聚类，等等根据难度先尝试一下。

0 0