深度学习 —— 使用 gensim 实现 word2vec

来源:互联网 发布:hbase mysql元数据 编辑:程序博客网 时间:2024/05/22 12:39

1. word2vec

word2vec:

  • 一种无监督深度学习方法,
  • 顾名思义,其能实现从 words (来源于一个很大的文本语料库)到 vector 转化,称之为 word embeddings(词嵌入) 。
  • 与词袋模型(BOW,Bag of words)所不同的是,它给出的是 continuous distributed representations of words,也即是对单词的连续型分布式表示;(BOW,显然属于离散型)
  • 主要通过以下两种方式实现:
    • Skip-gram:从目标字词推测原始语句,在大型语料中表现更好;
    • CBOW:continuous bag of words,从原始词句推测出目标字词,适用于小型数据;

google 团队研发出的此算法的主要特色(卖点)在于,Our model can answer the query “give me a word like king, like woman, but unlike man” with “queen“.

king–man+woman=queen

2. 使用 gensim 实现 word2vec

Deep learning with word2vec and gensim

references

  • Google Code Archive:word2vec