python提取文本中的中文

来源:互联网 发布:怎么申请关闭淘宝店铺 编辑:程序博客网 时间:2024/05/19 18:14
# -*- coding: utf-8 -*-import reimport sysreload(sys)sys.setdefaultencoding("utf8")def translate(str):    line = str.strip().decode('utf-8', 'ignore')  # 处理前进行相关的处理,包括转换成Unicode等    p2 = re.compile(ur'[^\u4e00-\u9fa5]')  # 中文的编码范围是:\u4e00到\u9fa5    zh = " ".join(p2.split(line)).strip()    zh = ",".join(zh.split())    outStr = zh  # 经过相关处理后得到中文的文本    return outStr

0 0
原创粉丝点击