文本与序列的深度模型

来源:互联网 发布:淘宝手机分期12期免息 编辑:程序博客网 时间:2024/06/08 00:11

文本或者序列预测注意

①:语法多义性

    ·一个东西有多个名字,对相关的文本能够做到参数共享是比较好的

    ·需要识别单词,还要识别关系,此时需要大量的标签数据

②:无监督学习

     :不用标签进行训练,训练文本是非常多的,关键是要找到训练的内容

    :相似的词汇出现在相似的场景中

     :不需要知道每一个词的意义,词的含义由它所处的历史环境决定的

③:Embeddings

         :单词映射到一个向量(Word2Vec),越相似的单词的向量会越接近

          :新的词可以由语境得到共享参数


Word2Vec:将每个词映射到Vector列表(就是一个Embedding)里,一开始随机,用这个Embedding进行预测,context即Vector列表里的邻居,目标是让window里的详尽的词放在相邻的位置,即预测一个词的邻居,用来预测这项相邻未知的单词的模型只是一个Logistics Regression,


④:Compare embeddings

      一定是去比较两个Vector之间的夹角来判断接近程度,用cos值而非L2计算,因为Vector的长度和分类是不相关的:


⑤:Predict Words

        单词经过embedding变成一个向量,然后输入到Wx+b,做一个线性模型变换,经过softmax输出label概率为输出文本中的词汇,但是Wx+b输出时label太多,计算这种softmax非常低效,这时就要计算某个label在局部的概率


⑥:Sequence

文本(Text)是单词(word)的一个序列,一个关键特点是长度不能改变,就不能变成Vector

⑦:lstm前向传播计算过程见课本P203

阅读全文
1 0
原创粉丝点击