2016-12-14

来源:互联网 发布:声优训练软件 编辑:程序博客网 时间:2024/06/01 11:04

今天的工作内容:

一,大概看了之前下载的两篇关于short text相似度的文章,第一篇文章较早,主要是介绍了对短文本相似度一些定义方面的内容,如何定义两个句子是相似的还是相关的,相似的程度等等,并提出了一个人工标注的数据集,之后可以再详细看一下其中对相似度的介绍。第二篇文章是用embedding的方式来做短文本相似度,其中对短文本相似度的方法做了一些简要的分类,大致上可以分为:字符串匹配,语法匹配,基于外部知识的匹配,以及分布式表示的匹配。文章中主要采用了分布式匹配的方法,并且将各种特征进行融合的方式来计算两个句子的相似度,本质上是一个逻辑回归问题,score(f(sen_pair))), sen_pair是一对句子,f()表示提取其特征,最后利用有监督学习的方法来计算其相似度。之后可以详细地看其计算方法。


二,熟悉了一下word2vec的基本原理和方法,主要是CBOW和SKIP_GRAM, CBOW只有输入词向量,而SKIP_GRAM则有输入和输出词向量,之后可以将其融合一下。两种方法都可以采用层级softmax和负样本采样两种方法来分别训练。之后的打算是熟悉tensorflow的代码,并准备在中文和公司的语料上尝试训练一下。


三,感觉公司给定句子后自动分析处语义信息(人工规则和模板)需要大量的人力而且也不是特别的准确,会不会对后续的训练产生影响,初步的打算是利用之前提到的learning to rank的方法来做,可以尝试普通的sentence_to_embedding等方法看有什么效果,能不能实现无监督聚类,等等根据难度先尝试一下。

0 0
原创粉丝点击