word2vec之霍夫曼树的实现

来源：互联网发布：多媒体网络教学系统编辑：程序博客网时间：2024/06/06 15:49

1. 霍夫曼树的基本要点

判定过程最优的二叉树是霍夫曼树。

路径：树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。

路径长度：路径上的分支数目称为路径长度。

树的路径长度：从根结点到每一个叶子结点的路径长度之和就是这棵树的路径长度。

带权值的路径长度：如果树中每一个叶子结点都带有一个权值，则把树中所有叶子的带权路径长度之和称为树的带权路径长度。

树的带权值路径长度：

带权路径最小的二叉树就是判定过程最优二叉树，即霍夫曼二叉树。其中，权值越大的叶子结点越接近根结点。

2. Word2vec中霍夫曼树的实现

其中，count存各个词的词频，就是叶子结点的权值；binary存霍夫曼编码，parent_node存各父结点的位置。由于满二叉树的节点数m=2n-1, n为叶子结点数，所以以上3个数组的元素个数均为2*vocab_size-1.前n个存叶子结点，后n-1个存父结点。

具体步骤：

以后各次循环如步骤2，直到2n-1也被赋值，整棵树建立完成。

程序如下：

void CreateBinaryTree() {  long long a, b, i, min1i, min2i, pos1, pos2, point[MAX_CODE_LENGTH];  char code[MAX_CODE_LENGTH];  long long *count = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));  //节点的权重，叶子节点的权重为cn，父节点的权重为其子结点权重和。  long long *binary = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));   //表明左右结点，左结点为0，右节点为1.  long long *parent_node = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));  //父结点。  for (a = 0; a < vocab_size; a++) count[a] = vocab[a].cn;  for (a = vocab_size; a < vocab_size * 2; a++) count[a] = 1e15;  pos1 = vocab_size - 1;  pos2 = vocab_size;  // Following algorithm constructs the Huffman tree by adding one node at a time  for (a = 0; a < vocab_size - 1; a++) {    // First, find two smallest nodes 'min1, min2'    if (pos1 >= 0) {      if (count[pos1] < count[pos2]) {  //根据词频来确定位置  词频作为权值？        min1i = pos1;        pos1--;      } else {        min1i = pos2;        pos2++;      }    } else {      min1i = pos2;      pos2++;    }    if (pos1 >= 0) {      if (count[pos1] < count[pos2]) {        min2i = pos1;        pos1--;      } else {        min2i = pos2;        pos2++;      }    } else {      min2i = pos2;      pos2++;    }    count[vocab_size + a] = count[min1i] + count[min2i];  //把权值赋给父结点    parent_node[min1i] = vocab_size + a; //定义上面两点的父结点。    parent_node[min2i] = vocab_size + a;    binary[min2i] = 1;   //给右结点贴标签。  }  // Now assign binary code to each vocabulary word  for (a = 0; a < vocab_size; a++) {    b = a;    i = 0;    while (1) {      code[i] = binary[b];  //code存huffman编码。      point[i] = b;  //point专门存父结点      i++;      b = parent_node[b];      if (b == vocab_size * 2 - 2) break;    }    vocab[a].codelen = i;  //huffman编码的长度。  code和codelen可以用于定位词的位置。    vocab[a].point[0] = vocab_size - 2;    for (b = 0; b < i; b++) {  //将每个词对应的huffman路径写到point里。      vocab[a].code[i - b - 1] = code[b];      vocab[a].point[i - b] = point[b] - vocab_size;  //每个结点都存入其所有的父结点的位置。    }  }  free(count);  free(binary);  free(parent_node);}

0 0