python提取文章中的中文数字

来源:互联网 发布:局域网屏幕监控软件 编辑:程序博客网 时间:2024/06/05 05:09

新建mytest.txt

添加内容:

或多或少的好好读书电锯惊魂20202 和水电费后是否会时候1212没收到风10.12海大富的是粉红色的和办法的1244525.000会发生的粉红色的合法化好0.01给对方会感受到发给还是干活0001还打飞机大嫁风尚蝴蝶结个房间小电风扇豆腐干很多事123,450,000.000好盛大黑色的十一万八千四百三十二的还好丁世德11万2200海大富会闪烁二十万零三

python代码如下:

# _*_coding:utf-8 _*_import sysimport rereload(sys)sys.setdefaultencoding('utf8')def numberChange(path):    f = open(path,'r')    s = f.read()    for i in ["utf8","gb2312"]:        try:            data = s.decode(i)            break        except:            pass    # 匹配中的 ‘u’不可少    number = re.compile(ur'([一二三四五六七八九零十百千万亿]+|[0-9]+[,]*[0-9]+.[0-9]+)')    pattern = re.compile(number)    all = pattern.findall(data)    for i in all:        print '*'        print i    # 打印的内容    # 20202    # 1212    # 10.12    # 1244525.000    # 0001    # 123, 450, 000    # 十一万八千四百三十二    # 11    # 万2200    # 二十万零三    f.close()if __name__=='__main__':    path='./mytest.txt'    numberChange(path)

代码运行结果:

*
20202
*
1212
*
10.12
*
1244525.000
*
0001
*
123,450,000
*
十一万八千四百三十二
*
11万2200
*
二十万零三


Process finished with exit code 0