程序博客网 > 淘宝金币大转盘

[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervised Learning: Word Embedding；无监督学习：词嵌入）

来源：互联网发布：淘宝金币大转盘编辑：程序博客网时间：2024/05/29 04:36

[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervised Learning: Word
Embedding；无监督学习：词嵌入）

PDF VIDEO

Word Embedding

Word Embedding 是前面讲到的dimension reduction一个很好的应用。

这里写图片描述

1-of-N Encoding，是把所有的word用一个向量表示，每个向量都不一样，我们没办法从中获得更多的信息，比如猫和狗都属于动物，所以这时我们用Word Class将其分为n个类型，但又有了另一个问题，我们同样无法得知两个类型之间的相关性，所以要采用Word Embedding方法，就是把每一个word都投射到一个高维空间里，两个相似的类型隔得距离较近，这样就能得到相关性。
那么怎样让机器读懂词汇呢？

这里写图片描述

只知道输入，不知道输出，这就是一个无监督学习。

这里写图片描述

核心思想就是，通过该词语的上下文。

这里写图片描述

How to exploit the context?

有两个方法：
1.Count based

2.Prediction-based
用前面words 作为neural network的输入预测下一个词的几率。

Prediction-based

训练出neural network，所以我们将他的第一个hidden layer拿出来，就能将它们对应到相应的空间。

这里写图片描述

但是，仅通过一个词汇就要预测下一个词汇是很难的，所以通过Sharing Parameters来进行增强。

不仅用前一个word，还用前n个词来一起预测。

这里写图片描述

同样的weight是为了让同一个word放在i-1的位置和i-2的位置都有同样的transform，Or, one word would have two word vectors.另外的好处是可以减少参数量。
计算过程：

这里写图片描述

怎样让W1，W2等参数的weight一样呢？

这里写图片描述

那么怎样来训练这个network呢？

Training

完全是无监督的。

这里写图片描述

Various Architectures 有几招：

这里写图片描述

回到Word Embedding

Word Embedding

可以发现，我们把同样类型的word摆在一起，他们之间是有固定的关系的。

这里写图片描述

所以就可以从中发现一些关系。
比如让两个word两两相减，然后project到一个space上，如果落到同一处，则他们之间的关系是很类似的。

这里写图片描述

有了这个特性，这样我们就可以做一些预测工作。

这里写图片描述

阅读全文

1 0

淘宝金币大转盘

淘宝金币大转盘

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子重庆人流医院优先阳光地下城堡2转职优先度食之契约重点优先培养6个明日方舟精二优先级第一个五年计划优先发展当企业破产清算时优先顺序为不可思议迷宫新人优先培养谁优克优冠显示器湖南优冠体育材料有限公司冷优然作品儿子,太妖娆冷优然军少狼兄,三两只冷优然优净有品净享优物优食净食机小尼姑净心程弛昙郦优优净有品优惠券2600元是真是假优端净盈净水器多少钱优食净食机价格真优康牌优净优创优创app 优创教育优创数据技术有限公司优创名品优创数据优创硅酮敷料优创教育网站优创矫正带浙江优创济南优创数据技术有限公司优利德优利士优利福优利西亚法兰特在线优利德ut61e通病优剪优剪理发好吗优办克银行房屋朝向优劣顺序