文本与序列的深度模型

来源：互联网发布：淘宝手机分期12期免息编辑：程序博客网时间：2024/06/08 00:11

文本或者序列预测注意

①：语法多义性

·一个东西有多个名字，对相关的文本能够做到参数共享是比较好的

·需要识别单词，还要识别关系，此时需要大量的标签数据

②：无监督学习

：不用标签进行训练，训练文本是非常多的，关键是要找到训练的内容

：相似的词汇出现在相似的场景中

：不需要知道每一个词的意义，词的含义由它所处的历史环境决定的

③：Embeddings

：单词映射到一个向量（Word2Vec），越相似的单词的向量会越接近

：新的词可以由语境得到共享参数

Word2Vec：将每个词映射到Vector列表（就是一个Embedding）里，一开始随机，用这个Embedding进行预测，context即Vector列表里的邻居，目标是让window里的详尽的词放在相邻的位置，即预测一个词的邻居，用来预测这项相邻未知的单词的模型只是一个Logistics Regression，

④：Compare embeddings

一定是去比较两个Vector之间的夹角来判断接近程度，用cos值而非L2计算，因为Vector的长度和分类是不相关的：

⑤：Predict Words

单词经过embedding变成一个向量，然后输入到Wx+b，做一个线性模型变换，经过softmax输出label概率为输出文本中的词汇，但是Wx+b输出时label太多，计算这种softmax非常低效，这时就要计算某个label在局部的概率

⑥：Sequence

文本（Text）是单词（word）的一个序列，一个关键特点是长度不能改变，就不能变成Vector

⑦：lstm前向传播计算过程见课本P203

阅读全文

1 0