tensorflow里的word2vec_basic代码解析

来源：互联网发布：三维图制作软件编辑：程序博客网时间：2024/05/17 00:06

1、前提是手动已经下载好text8.zip数据，使用def read_data(filename)这个函数去读取zip里面的数据，调用了f = zipfile.ZipFile(filename, 'r' ,zipfile.ZIP_DEFLATED)这个函数，在得到文件描述符f后，调用data = tf.compat.as_str(f.read(f.namelist()[0])).split()函数，得到data，data包含17005207个单词，最后返回data。

2、建立一个50000大小的词典：使用def build_dataset(words)这个函数实现，1中的data即该函数中的words输入，在该函数中调用了count.extend(collections.Counter(words).most_common(vocabulary_size - 1))，这个语句的作用是统计words里17005270个单词每个单词出现的次数，显然words里的这些单词是有很多重复的，这就是需要这个第二步建立词典的意义了，并且统计完不同的单词每个单词的次数后选出出现频数最多的49999个词。其实这个语句还不能保证49999个单词不重复，因此后续语句

dictionary = dict()  for word, _ in count:    dictionary[word] = len(dictionary)

创建了dictionary，它确保了单词是唯一的，并且不能保证它的大小与count（长度是50000个单词）的大小相同，但是代码运行中发现dictionary的大小还是50000

接着：

data = list()  unk_count = 0  for word in words:    if word in dictionary:      index = dictionary[word]    else:      index = 0  # dictionary['UNK']      unk_count += 1    data.append(index)

在17005270个单词里取单词，查看取出的单词是不是在那大小为50000的字典里，如果在的话就把这个单词在字典里对应的值放到list类型的data中，如果不在的话，就默认值为0，并且把这个单词看成是unk，并统计unk单词的个数。由于data是list类型的，因此data的里的数据相同的数据会重复出现，那么data的长度就等于words的长度即17005270。

  count[0][1] = unk_count  reverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))  return data, count, dictionary, reverse_dictionary

接着更新count，更新unk单词的个数，将dictionary的键值调换。

最后返回data count dictionary reverse_dictionary

我感觉这个第二步，到最后就是把words里的17005270个单词都用dictionary里的数字来表示了，而数字就是单词的编码

3、调用函数：batch, labels = generate_batch(batch_size=8, num_skips=2, skip_window=1)。这一步是用来为skip-gram模型生成train batch数据的。
其中语句batch = np.ndarray(shape=(batch_size), dtype=np.int32)，是用来创建batch，并且这个batch是1行batch_size列，里面是随机数，类型是int32。

而语句labels = np.ndarray(shape=(batch_size, 1), dtype=np.int32)，是用来创建于batch对应的label，并且label是batch_size行1列，里面也是int32类型的随机数。

  span = 2 * skip_window + 1  # [ skip_window target skip_window ]  buffer = collections.deque(maxlen=span)

接着span在本例中为3，因为skip_window为1.而buffer是一个队列，大小为span，这个buffer是最重要的要处理的数据的存储方式。

for _ in range(span):    buffer.append(data[data_index])    data_index = (data_index + 1) % len(data)

上面这个for就是对buffer进行初始化赋值，而data_index就是个全局变量用来记录已经从words里拿了多少数据（单词），在本例中span=3，所以每次从words里拿3个单词。

for i in range(batch_size // num_skips):    target = skip_window  # target label at the center of the buffer    targets_to_avoid = [skip_window]    for j in range(num_skips):      while target in targets_to_avoid:        target = random.randint(0, span - 1)      targets_to_avoid.append(target)      batch[i * num_skips + j] = buffer[skip_window]      labels[i * num_skips + j, 0] = buffer[target]    buffer.append(data[data_index])    data_index = (data_index + 1) % len(data)

上面这个for循环有点麻烦，其中batch_size // num_skips是整除的意思，在本例中它等于4

而target=skip_window的意思就是比如说单词序列 a b c d e f g，这里skip_windows=1，因为 a b c首先要放到buffer（队列）里，而target=skip_windows=1指向的是单词 b，而我们要做的预测就是根据b 预测a和c。

而内层的for循环以及 while语句就是利用了一个小技巧，随机的取单词b的前面和后面一个单词，放到label里面，那么batch里的内容就成了 b b，而label里的内容就成了a c或者c a（因为是随机取的）。

接着buffer.append(data[data_index]) data_index = (data_index + 1) % len(data)这两个语句就是从data（17005270大小）数据集里取一个新的单词放到buffer里，而buffer队列的队首的元素就被踢出队列。那么buffer队列里的数据就变成了 b c d。

</pre></p><p>自此，我觉得大概理解了batch具体是什么了，比如b a就是一个batch  b c 就是一个batch 而c b又是一个batch，自然也理解了batch_size等于8具体是什么意思。</p><p>最后，返回train batch即 batch和label</p><p>4、创建skip-gram model</p><p>  train_inputs = tf.placeholder(tf.int32, shape=[batch_size])  train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1])</p><pre name="code" class="html">

这个trian_inputs就是一个要把batch数据送到graph里的占位符，而train_labels就是要把label放到graph里的占位符。

    embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))    embed = tf.nn.embedding_lookup(embeddings, train_inputs)

上面代码第一句，vocabulary_size大小为17005270，而embedding_size大小为128，那么embeddings这个占位符，所需要的数据就是vocabulary_size * embedding_size大小，且值在-1.0到1.0之间的矩阵。

第二句就是从embeddings结果里取出train_input所指示的单词对应位置的值，把结果存成矩阵embed。

# Construct the variables for the NCE loss    nce_weights = tf.Variable(        tf.truncated_normal([vocabulary_size, embedding_size],                            stddev=1.0 / math.sqrt(embedding_size)))    nce_biases = tf.Variable(tf.zeros([vocabulary_size]))

上面两个语句，是创建NCE loss需要的权重和偏置。而truncated_normal创建一个服从截断正态分布的tensor作为权重。

# Compute the average NCE loss for the batch.  # tf.nce_loss automatically draws a new sample of the negative labels each  # time we evaluate the loss.  loss = tf.reduce_mean(      tf.nn.nce_loss(nce_weights, nce_biases, embed, train_labels,                     num_sampled, vocabulary_size))

上面语句是计算先计算NCE 的loss，然后取平均

# Construct the SGD optimizer using a learning rate of 1.0.  optimizer = tf.train.GradientDescentOptimizer(1.0).minimize(loss)

上面这句是使用梯度下降算法以1.0的学习率优化loss函数。

0 0