搜狗新闻语料库 python正则表达式新闻内容提取

来源：互联网发布：阿里云邮箱账号找回编辑：程序博客网时间：2024/06/15 17:07

最近在做数据挖掘大作业，老师要求100W新闻，自己爬了一大部分，但也还不够，就想到用语料库，

搜狗语料库来源：http://www.sogou.com/labs/resource/cs.php

打开是

<doc>

</doc>

这样的形式的已经切割好的一堆文件，这里我只写了运动的获取内容，只需读取后正则匹配写入就ok，如下：

# -*- coding: UTF-8 -*-import codecsimport sysimport reimport csvimport osimport codecs#cate = ['women','business','health','yule','sports','it','house','travel','mil','cul']rootdir = './sougou_after2'list = os.listdir(rootdir)pattern1 = r'sports.sohu(.*?)<content>(.*?)</content>'i= 0for x in range(0,len(list)):   path = os.path.join(rootdir, list[x])        #获取目录下文件名字   if os.path.isfile(path):      print path      content = open(path,'r').read()      texts = re.findall(pattern1,content,re.S)      for text in texts:         if text:            dir = './sport_' + str(i) + '.txt'            output = open(dir, 'w')            output.write(text[1])            print i, ':', dir            i = i + 1

阅读全文

1 0

搜狗新闻语料库 python正则表达式 新闻内容提取

搜狗新闻语料库 python正则表达式新闻内容提取