python中使用文件的读取编码问题和简单正则使用(二)

来源:互联网 发布:保险网络增员话术 编辑:程序博客网 时间:2024/04/30 16:55
写这个简单的正则匹配呢,主要是让大家可以参考取自己文本中想要的东西,比如我现在的文本内容是这样的

我想要把<Sentiment>和</Sentiment>之间的neg和pos提取出来,文件基本操作参考上一篇python中使用文件的读取和简单正则使用(一)

下面上代码了

# coding=utf-8import re fopen=open('monitor.txt','r')lines=[]lines=fopen.readlines()fopen.close()fout=open('1.txt','w')for line in lines:    line.decode('gbk','ignore').encode('utf-8')     match=re.findall(".*<Sentiment>(.*)</Sentiment>.*",line)    for x in match:        fout.write(x)        fout.write('\n')

 

0 0
原创粉丝点击