sentencepiece分词效果测试
来源:互联网 发布:java h5微信支付demo 编辑:程序博客网 时间:2024/05/16 08:14
首先安装依赖包:
sudo apt-get install autoconf automake libtool libprotobuf9v5 protobuf-compiler libprotobuf-dev
下载sentencepiece : git clone https://github.com/google/sentencepiece
编译与安装sentencepiece:
cd /path/to/sentencepiece./autogen.sh./configuremakemake checksudo make installsudo ldconfig
训练sentencepiece 模型:
spm_train --input=<input> --model_prefix=<model_name> --vocab_size=8000 --model_type=<type>
sentencepiece包括unigram
(default), bpe
, char
, or word等4种模型,训练的时候可以设置对应的model_type.
训练之后,会保存模型文件model_name.model,和词典文件model_name.vocab.
测试分词效果:
输入为一句话:
echo “在北京天安门广场” | spm_encode –model=model_name.model
输入文件:
spm_encode –model=model_name.model –output_format=piece input.txt
原理可参考:http://blog.csdn.net/u011961856/article/details/77165539
阅读全文
0 0
- sentencepiece分词效果测试
- sentencePiece 分词原理学习
- Solr中配置IKAnalyzer分词器配置,测试分词效果
- 分词测试
- IKAnalyzer的分词效果
- 分词器的测试
- Lucene分词器测试
- 测试庖丁解牛分词工具
- 测试庖丁解牛分词工具
- 中文分词测试
- Lucene分词器测试
- 中文分词测试集
- 测试庖丁解牛分词工具
- solr分词测试
- 测试庖丁解牛分词工具
- 指定分词器测试分词结果
- 开放测试分词结果赏析
- 测试分词的一些例子
- c语言对结构体的读取与写入
- Day21
- 加农炮 51Nod
- 地址解析与逆解析
- CSU 1505 酷酷的单词_水题
- sentencepiece分词效果测试
- HDU 6115 Factory LCA求树上距离
- 线程锁_互斥量
- Fibonacci
- Java实现常见的排序算法
- UVA
- ZOJ 3449 Doraemon's Number Game III
- Day22
- 函数详解(function)--shell学习