jieba分词,并去除所有标点
来源:互联网 发布:mac mysql my.cnf 配置 编辑:程序博客网 时间:2024/06/05 11:47
# encoding=utf-8import jiebaimport reclass Scan(object): def __init__(self,path): self.path = path def scan(self): r = '[’!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]+' try: f = open(self.path, "r",encoding='UTF-8') except Exception as err: print(err) finally: print("文件读取结束") word_list = [] while True: line = f.readline() if line: line = line.strip() line = re.sub(r, '', line) seg_list = jieba.cut(line, cut_all=False) word_list.append(list(seg_list)) else: break f.close() print(word_list)'''分词并提取关键词'''import syssys.path.append('../')import jiebaimport jieba.analysefrom optparse import OptionParserUSAGE = "usage: python extract_tags_with_weight.py [file name] -k [top k] -w [with weight=1 or 0]"parser = OptionParser(USAGE)parser.add_option("-k", dest="topK")parser.add_option("-w", dest="withWeight")opt, args = parser.parse_args()if len(args) < 1: print(USAGE) sys.exit(1)file_name = args[0]if opt.topK is None: topK = 10else: topK = int(opt.topK)if opt.withWeight is None: withWeight = Falseelse: if int(opt.withWeight) is 1: withWeight = True else: withWeight = Falsecontent = open(file_name, 'rb').read()tags = jieba.analyse.extract_tags(content, topK=topK, withWeight=withWeight)if withWeight is True: for tag in tags: print("tag: %s\t\t weight: %f" % (tag[0],tag[1]))else: print(",".join(tags))
阅读全文
0 0
- jieba分词,并去除所有标点
- python27使用jieba分词,去除停用词
- 合并txt文件,并使用jieba分词
- 使用jieba进行数据预处理(分词,过滤停用词及标点,获取词频、关键词等)
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- JS实现去除一个字符串中的所有标点和空格
- jieba分词并写入到TXT文本中
- python jieba分词学习
- 《Groovy极简教程》第1章 Groovy简介
- javascript创建对象
- 前端技术栈-不定期更新
- 《Groovy极简教程》第2章 Groovy基础数据类型
- objdump
- jieba分词,并去除所有标点
- 《Groovy极简教程》第3章 Groovy基本语法
- 《Groovy极简教程》第4章 Groovy与Java混合编程
- OSI 七层模型
- 《Groovy极简教程》第5章 SpringBoot集成Groovy与Java混合编程
- 《Groovy极简教程》第6章 Groovy与Grails
- 《Groovy极简教程》第7章 Groovy与Gradle
- Centreon界面显示Poller States中有nagios采集服务器没有启动,显示红色
- 《Groovy极简教程》第8章 Groovy:领域特定语言(DSL)