用gensim导入word2vec词向量bin文件,出现字符编码
来源:互联网 发布:英国脱欧最新进展 知乎 编辑:程序博客网 时间:2024/06/16 10:15
首先抛出我遇到的问题。
我训练了一个词向量文件,得到了一个二进制文件,model.bin,然后准备调用gensim来测试bin文件里面的词向量效果怎么样,于是就导入这个模型。
import gensim# 导入模型model = gensim.models.KeyedVectors.load_word2vec_format('t8model.bin',binary=True)print (model['word'])
然后出现以下编码问题
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 0: invalid start byte
查了一下,这是Stack Overflow上的答案
The strings (words) stored in your model are not valid utf8. By default, gensim decodes the words using the strict encoding settings, which results in the above exception whenever an invalid utf8 sequence is encountered.
然后知道我测试的词在模型中不是utf-8形式的,于是我找了一个以前测试正确的模型,来重新测试,然后就没有出现编码问题。
这就确定了我的问题的原因是由于模型中的词不是utf-8形式的。
现在就去找导致这种结果的原因......
阅读全文
0 0
- 用gensim导入word2vec词向量bin文件,出现字符编码
- 【python gensim使用】word2vec词向量处理英文语料
- 【python gensim使用】word2vec词向量处理中文语料
- 【python gensim使用】word2vec词向量处理中文语料
- 基于python的gensim word2vec训练词向量
- 【python gensim使用】word2vec词向量处理英文语料
- word2vec词向量训练及gensim的使用
- gensim导入word2vec模型,memory error问题
- gensim word2vec
- gensim Word2vec
- python导入gensim出现警告
- word2vec 词向量
- word2vec 词向量
- word2vec 词向量训练
- 词向量之word2vec(1)
- 词向量之word2vec(2)
- 词向量与word2vec分析
- Gensim Word2vec 使用教程
- Hashtable,HashMap,ConcurrentHashMap 底层实现原理与线程安全问题
- ios-ContactsUI框架简单使用
- 《机器学习基石》课程笔记(2)
- LeetCode121. Best Time to Buy and Sell Stock
- 深度学习笔记:交叉熵(cross-entropy)损失函数解决二次型带来的学习速率下降问题
- 用gensim导入word2vec词向量bin文件,出现字符编码
- ArrayList、Vector、CopyOnWriteList
- Mesos+Kubernetes集成安装部署
- 【学习笔记】机器学习之用TensorFlow cnn 测试CIFAR-10数据集
- tomcat启动后本地无法访问,局域网内的其他电脑可以访问
- 基于[Moya]-打造更现代化的网络请求库
- BZOJ1823: [JSOI2010]满汉全席
- 【模板】【数论】高精度
- java面试总结-2 hibernate