2016-12-14
来源:互联网 发布:声优训练软件 编辑:程序博客网 时间:2024/06/01 11:04
今天的工作内容:
一,大概看了之前下载的两篇关于short text相似度的文章,第一篇文章较早,主要是介绍了对短文本相似度一些定义方面的内容,如何定义两个句子是相似的还是相关的,相似的程度等等,并提出了一个人工标注的数据集,之后可以再详细看一下其中对相似度的介绍。第二篇文章是用embedding的方式来做短文本相似度,其中对短文本相似度的方法做了一些简要的分类,大致上可以分为:字符串匹配,语法匹配,基于外部知识的匹配,以及分布式表示的匹配。文章中主要采用了分布式匹配的方法,并且将各种特征进行融合的方式来计算两个句子的相似度,本质上是一个逻辑回归问题,score(f(sen_pair))), sen_pair是一对句子,f()表示提取其特征,最后利用有监督学习的方法来计算其相似度。之后可以详细地看其计算方法。
二,熟悉了一下word2vec的基本原理和方法,主要是CBOW和SKIP_GRAM, CBOW只有输入词向量,而SKIP_GRAM则有输入和输出词向量,之后可以将其融合一下。两种方法都可以采用层级softmax和负样本采样两种方法来分别训练。之后的打算是熟悉tensorflow的代码,并准备在中文和公司的语料上尝试训练一下。
三,感觉公司给定句子后自动分析处语义信息(人工规则和模板)需要大量的人力而且也不是特别的准确,会不会对后续的训练产生影响,初步的打算是利用之前提到的learning to rank的方法来做,可以尝试普通的sentence_to_embedding等方法看有什么效果,能不能实现无监督聚类,等等根据难度先尝试一下。
0 0
- 2016-12-14
- CVPR 2016-12-14
- 2016/12/14学习工作总结
- 美团秋招补招(2016-12-14更新)
- 2016-12-14-项目总结及反思
- java日常笔记2016-12-14
- 2016/12/14——集合框架
- 2016-12-14-记事本第一天
- 2016年12月14日学习笔记
- [2016/12/14]统计一个串里segment的个数
- 2016年12月14日的学习日志
- Java Web开发笔记(2016-5-6 11:13、2016-5-10 11:13、2016-5-12 14:58)
- 日志-14-12-14
- 2016-12-12
- 2016-12-12
- 2016/12/12 杂谈
- CVPR 2016-12-12
- 2016年4月14日--4月30日(12小时,剩3009小时)
- LeetCode 69. Sqrt(x)
- 自动化之AccessibilityService原理
- #1062 : 最近公共祖先·一
- yii2 缩略图功能的实现
- 高并发web系统调优(十)数据读写分离和廉价存储方案
- 2016-12-14
- Swagger - 前后端分离后的契约
- Python-Dictionary-创建字典的方式
- SS安卓无效电脑有效
- git 步骤记录
- EAS BOS 常用代码
- 一个比较有趣的c语言程序纠错,大家都可以学习下哦
- view
- Kettle java调用