word2vec之霍夫曼树的实现

来源:互联网 发布:多媒体网络教学系统 编辑:程序博客网 时间:2024/06/06 15:49


1.      霍夫曼树的基本要点

判定过程最优的二叉树是霍夫曼树。

路径:树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。

路径长度:路径上的分支数目称为路径长度。

树的路径长度:从根结点到每一个叶子结点的路径长度之和就是这棵树的路径长度。

带权值的路径长度:如果树中每一个叶子结点都带有一个权值,则把树中所有叶子的带权路径长度之和称为树的带权路径长度。

 

树的带权值路径长度:


带权路径最小的二叉树就是判定过程最优二叉树,即霍夫曼二叉树。其中,权值越大的叶子结点越接近根结点。

 

2.      Word2vec中霍夫曼树的实现

其中,count存各个词的词频,就是叶子结点的权值;binary存霍夫曼编码,parent_node存各父结点的位置。由于满二叉树的节点数m=2n-1, n为叶子结点数,所以以上3个数组的元素个数均为2*vocab_size-1.前n个存叶子结点,后n-1个存父结点。

 

具体步骤:

以后各次循环如步骤2,直到2n-1也被赋值,整棵树建立完成。


程序如下:

void CreateBinaryTree() {  long long a, b, i, min1i, min2i, pos1, pos2, point[MAX_CODE_LENGTH];  char code[MAX_CODE_LENGTH];  long long *count = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));  //节点的权重,叶子节点的权重为cn,父节点的权重为其子结点权重和。  long long *binary = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));   //表明左右结点,左结点为0,右节点为1.  long long *parent_node = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));  //父结点。  for (a = 0; a < vocab_size; a++) count[a] = vocab[a].cn;  for (a = vocab_size; a < vocab_size * 2; a++) count[a] = 1e15;  pos1 = vocab_size - 1;  pos2 = vocab_size;  // Following algorithm constructs the Huffman tree by adding one node at a time  for (a = 0; a < vocab_size - 1; a++) {    // First, find two smallest nodes 'min1, min2'    if (pos1 >= 0) {      if (count[pos1] < count[pos2]) {  //根据词频来确定位置  词频作为权值?        min1i = pos1;        pos1--;      } else {        min1i = pos2;        pos2++;      }    } else {      min1i = pos2;      pos2++;    }    if (pos1 >= 0) {      if (count[pos1] < count[pos2]) {        min2i = pos1;        pos1--;      } else {        min2i = pos2;        pos2++;      }    } else {      min2i = pos2;      pos2++;    }    count[vocab_size + a] = count[min1i] + count[min2i];  //把权值赋给父结点    parent_node[min1i] = vocab_size + a; //定义上面两点的父结点。    parent_node[min2i] = vocab_size + a;    binary[min2i] = 1;   //给右结点贴标签。  }  // Now assign binary code to each vocabulary word  for (a = 0; a < vocab_size; a++) {    b = a;    i = 0;    while (1) {      code[i] = binary[b];  //code存huffman编码。      point[i] = b;  //point专门存父结点      i++;      b = parent_node[b];      if (b == vocab_size * 2 - 2) break;    }    vocab[a].codelen = i;  //huffman编码的长度。  code和codelen可以用于定位词的位置。    vocab[a].point[0] = vocab_size - 2;    for (b = 0; b < i; b++) {  //将每个词对应的huffman路径写到point里。      vocab[a].code[i - b - 1] = code[b];      vocab[a].point[i - b] = point[b] - vocab_size;  //每个结点都存入其所有的父结点的位置。    }  }  free(count);  free(binary);  free(parent_node);}


 

0 0