NLP中的并行分词方法

来源:互联网 发布:学python能做什么 编辑:程序博客网 时间:2024/05/21 14:04

目前并行分词只能在linux系统下支持,并行分词能显著提高我们的分词速度,在数据量很大时效果尤其明显,

下面给出我在一篇作文中进行并行分词和常规分词的时间的比较

#encoding=utf-8import sysimport timeimport jiebajieba.enable_parallel()content = open(u'/home/yang/下载/zuowen.txt',"r").read()t1 = time.time()words = "/ ".join(jieba.cut(content))t2 = time.time()tm_cost = t2-t1print('并行分词速度为 %s bytes/second' % (len(content)/tm_cost))jieba.disable_parallel()content = open(u'/home/yang/下载/zuowen.txt',"r").read()t1 = time.time()words = "/ ".join(jieba.cut(content))t2 = time.time()tm_cost = t2-t1print('非并行分词速度为 %s bytes/second' % (len(content)/tm_cost))


输出的结果分别为:并行分词速度为 375263.146396 bytes/second
非并行分词速度为 173770.15598 bytes/second

并行分词的速度明显快两倍多。所以当文档特别大时并行分词是一种很好的选择。


原创粉丝点击