word2vec之霍夫曼树的实现
来源:互联网 发布:多媒体网络教学系统 编辑:程序博客网 时间:2024/06/06 15:49
1. 霍夫曼树的基本要点
判定过程最优的二叉树是霍夫曼树。
路径:树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。
路径长度:路径上的分支数目称为路径长度。
树的路径长度:从根结点到每一个叶子结点的路径长度之和就是这棵树的路径长度。
带权值的路径长度:如果树中每一个叶子结点都带有一个权值,则把树中所有叶子的带权路径长度之和称为树的带权路径长度。
树的带权值路径长度:
带权路径最小的二叉树就是判定过程最优二叉树,即霍夫曼二叉树。其中,权值越大的叶子结点越接近根结点。
2. Word2vec中霍夫曼树的实现
其中,count存各个词的词频,就是叶子结点的权值;binary存霍夫曼编码,parent_node存各父结点的位置。由于满二叉树的节点数m=2n-1, n为叶子结点数,所以以上3个数组的元素个数均为2*vocab_size-1.前n个存叶子结点,后n-1个存父结点。
具体步骤:
以后各次循环如步骤2,直到2n-1也被赋值,整棵树建立完成。
程序如下:
void CreateBinaryTree() { long long a, b, i, min1i, min2i, pos1, pos2, point[MAX_CODE_LENGTH]; char code[MAX_CODE_LENGTH]; long long *count = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long)); //节点的权重,叶子节点的权重为cn,父节点的权重为其子结点权重和。 long long *binary = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long)); //表明左右结点,左结点为0,右节点为1. long long *parent_node = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long)); //父结点。 for (a = 0; a < vocab_size; a++) count[a] = vocab[a].cn; for (a = vocab_size; a < vocab_size * 2; a++) count[a] = 1e15; pos1 = vocab_size - 1; pos2 = vocab_size; // Following algorithm constructs the Huffman tree by adding one node at a time for (a = 0; a < vocab_size - 1; a++) { // First, find two smallest nodes 'min1, min2' if (pos1 >= 0) { if (count[pos1] < count[pos2]) { //根据词频来确定位置 词频作为权值? min1i = pos1; pos1--; } else { min1i = pos2; pos2++; } } else { min1i = pos2; pos2++; } if (pos1 >= 0) { if (count[pos1] < count[pos2]) { min2i = pos1; pos1--; } else { min2i = pos2; pos2++; } } else { min2i = pos2; pos2++; } count[vocab_size + a] = count[min1i] + count[min2i]; //把权值赋给父结点 parent_node[min1i] = vocab_size + a; //定义上面两点的父结点。 parent_node[min2i] = vocab_size + a; binary[min2i] = 1; //给右结点贴标签。 } // Now assign binary code to each vocabulary word for (a = 0; a < vocab_size; a++) { b = a; i = 0; while (1) { code[i] = binary[b]; //code存huffman编码。 point[i] = b; //point专门存父结点 i++; b = parent_node[b]; if (b == vocab_size * 2 - 2) break; } vocab[a].codelen = i; //huffman编码的长度。 code和codelen可以用于定位词的位置。 vocab[a].point[0] = vocab_size - 2; for (b = 0; b < i; b++) { //将每个词对应的huffman路径写到point里。 vocab[a].code[i - b - 1] = code[b]; vocab[a].point[i - b] = point[b] - vocab_size; //每个结点都存入其所有的父结点的位置。 } } free(count); free(binary); free(parent_node);}
0 0
- word2vec之霍夫曼树的实现
- 文本挖掘深度学习之word2vec的R语言实现
- 基于Skip-Gram的Word2Vec神经网络实现
- 重磅︱文本挖掘深度学习之word2vec的R语言实现
- Word2vec 快熟实现之 TuneLayer (TensorLayer) 和 TensorFlow 篇
- Word2vec 之 Skip-Gram 模型(实现篇)
- word2vec中关于霍夫曼树的应用原理
- word2vec中关于霍夫曼树的应用原理
- word2vec源码解析之word2vec.c
- word2vec并行实现小记
- word2vec并行实现
- word2vec原理及实现
- python初步实现word2vec
- word2vec实现踩坑
- 基于tensorflow实现word2vec
- python初步实现word2vec
- python初步实现word2vec
- tensorflow 实现word2vec
- C++规则总结
- DI/IOC
- poj1979 Red and Black DFS深度优先搜索+剪枝
- ng-options 用法详解
- Android中打开多个Activity,点击返回到第一个Activity
- word2vec之霍夫曼树的实现
- 学密码学一定得学程序
- 360兼容模式 IE8等 从代码中屏蔽 通知栏弹出“浏览器已经限制此文件显示可能访问您的计算机的活动内容”
- 网络基础知识
- Java GUI打包成jar包运行、注意事项、不弹出黑框、自带jre
- MySQL 5.7 深度解析: 半同步复制技术
- 使用 InfoSphere Warehouse 和 Cognos 检测偏差
- sql中update语句的几个特殊处理
- HTML学习15-color颜色