比较笨的中文预处理 python

来源:互联网 发布:不用网络看小说 编辑:程序博客网 时间:2024/06/05 08:15
def clean_str(string):    #半角英文特殊字符    string = re.sub(r"[A-Za-z&\*\.;\?!,:\-\'\^\`/\(\)]", "", string)    #去除中文特殊字符    string = re.sub(r"(~)", "", string)    string = re.sub(r"(《)", "", string)    string = re.sub(r"(》)", "", string)    string = re.sub(r"(@)", "", string)    string = re.sub(r"(¥)", "", string)    string = re.sub(r"(%)", "", string)    string = re.sub(r"(·)", "", string)    string = re.sub(r"(~)", "", string)    string = re.sub(r"(、)", "", string)    string = re.sub(r"(:)", "", string)    string = re.sub(r"(()", "", string)    string = re.sub(r"())", "", string)    string = re.sub(r"(ヽ)", "", string)    string = re.sub(r"(メ)", "", string)    string = re.sub(r"(ノ )", "", string)    string = re.sub(r"(#)", "", string)    string = re.sub(r"(【)", "", string)    string = re.sub(r"(】)", "", string)    string = re.sub(r"(:)", "", string)    string = re.sub(r"( )+", "", string)    string = re.sub(r"(。)+", "。", string)    string = re.sub(r"(?)+", "?", string)    string = re.sub(r"(!)+", "!", string)    string = re.sub(r"(;)+", ";", string)    string = re.sub(r"(,)+", ",", string)    #string = re.sub(r"( )+", "", string)    #string = re.sub(r"\s{2,}", "", string)    #中文空格是全角字符    string = re.sub(r"[0-9]{1,}", "N", string)    #所有的数字用N替换    return string.strip()
阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 进口原油运价指数 今日原油实时行情 原油现货投资入门 原油是什么意思 投资原油可靠吗 原油期货怎么买 原油走势预测 原油走势分析 原油交易平台 原油价格走势 原油价格k线走势图 美国原油指数 nymex原油实时行情走势图 现货原油投资 美国原油期货 原油现货交易平台 布伦特原油价格 美国原油走势 美原油走势图 原油行情分析 东方财富原油期货走势图 原油投资公司 原油外盘开户 原油交易中心 国际原油今日报价 今日原油报价 原油看盘软件 模拟原油交易 原油期货怎么做 怎么做原油交易 长江联合原油 今天原油行情 原油市场行情 国际原油交易 湖南有色 炒现货的几乎都是亏 金融现货 现货怎么做 做现货怎么样 现货怎么炒 炒现货