NLP中的并行分词方法
来源:互联网 发布:学python能做什么 编辑:程序博客网 时间:2024/05/21 14:04
目前并行分词只能在linux系统下支持,并行分词能显著提高我们的分词速度,在数据量很大时效果尤其明显,
下面给出我在一篇作文中进行并行分词和常规分词的时间的比较
#encoding=utf-8import sysimport timeimport jiebajieba.enable_parallel()content = open(u'/home/yang/下载/zuowen.txt',"r").read()t1 = time.time()words = "/ ".join(jieba.cut(content))t2 = time.time()tm_cost = t2-t1print('并行分词速度为 %s bytes/second' % (len(content)/tm_cost))jieba.disable_parallel()content = open(u'/home/yang/下载/zuowen.txt',"r").read()t1 = time.time()words = "/ ".join(jieba.cut(content))t2 = time.time()tm_cost = t2-t1print('非并行分词速度为 %s bytes/second' % (len(content)/tm_cost))
输出的结果分别为:并行分词速度为 375263.146396 bytes/second
非并行分词速度为 173770.15598 bytes/second
并行分词的速度明显快两倍多。所以当文档特别大时并行分词是一种很好的选择。
阅读全文
1 0
- NLP中的并行分词方法
- NLP中的中文分词技术
- 【原创】NLP中的中文分词技术
- NLP分词
- NLP分词
- NLP中的词性标注方法
- 深度学习将会变革NLP中的中文分词
- 深度学习将会变革NLP中的中文分词
- 深度学习将会变革NLP中的中文分词
- jieba中的分词方法
- NLP-汉语分词
- NLP:中文分词
- 初识nlp (1 (分词
- nlp技能,jieba分词
- matlab中的并行方法
- 【NLP】中文分词:原理及分词算法
- NLP 最近常用分词工具
- NLP(一) Ansj 分词
- matlab 函数拟合polyfit
- JavaScript总结
- 8758:2的幂次方表示(2.2基本算法之递归和自调用函数)
- mybatis和spring整合
- 你应该知道的JDK知识
- NLP中的并行分词方法
- 【oracle】简单查询
- 脑袋里是浆糊时的c++程序(我一定是傻了)
- JS代码
- Struts2(6)——Action传递参数
- ADM打不开/data,或打开后无法导出里面的文件
- ACM 括号匹配深度
- 【LeetCode】125、Valid Palindrome
- 移动端踩坑之旅-ios下fixed、软键盘相关问题总结