比较笨的中文预处理 python
来源:互联网 发布:不用网络看小说 编辑:程序博客网 时间:2024/06/05 08:15
def clean_str(string): #半角英文特殊字符 string = re.sub(r"[A-Za-z&\*\.;\?!,:\-\'\^\`/\(\)]", "", string) #去除中文特殊字符 string = re.sub(r"(~)", "", string) string = re.sub(r"(《)", "", string) string = re.sub(r"(》)", "", string) string = re.sub(r"(@)", "", string) string = re.sub(r"(¥)", "", string) string = re.sub(r"(%)", "", string) string = re.sub(r"(·)", "", string) string = re.sub(r"(~)", "", string) string = re.sub(r"(、)", "", string) string = re.sub(r"(:)", "", string) string = re.sub(r"(()", "", string) string = re.sub(r"())", "", string) string = re.sub(r"(ヽ)", "", string) string = re.sub(r"(メ)", "", string) string = re.sub(r"(ノ )", "", string) string = re.sub(r"(#)", "", string) string = re.sub(r"(【)", "", string) string = re.sub(r"(】)", "", string) string = re.sub(r"(:)", "", string) string = re.sub(r"( )+", "", string) string = re.sub(r"(。)+", "。", string) string = re.sub(r"(?)+", "?", string) string = re.sub(r"(!)+", "!", string) string = re.sub(r"(;)+", ";", string) string = re.sub(r"(,)+", ",", string) #string = re.sub(r"( )+", "", string) #string = re.sub(r"\s{2,}", "", string) #中文空格是全角字符 string = re.sub(r"[0-9]{1,}", "N", string) #所有的数字用N替换 return string.strip()
阅读全文