搜狗新闻语料库 python正则表达式 新闻内容提取

来源:互联网 发布:阿里云邮箱账号找回 编辑:程序博客网 时间:2024/06/15 17:07

最近在做数据挖掘大作业,老师要求100W新闻,自己爬了一大部分,但也还不够,就想到用语料库,

搜狗语料库来源:http://www.sogou.com/labs/resource/cs.php

打开是

<doc>

<url>...</url>

<docno>....</docno>

<contentitle>...</contenttitle>

<content>...</content>

</doc>

这样的形式的已经切割好的一堆文件,这里我只写了运动的获取内容,只需读取后正则匹配写入就ok,如下:

# -*- coding: UTF-8 -*-import codecsimport sysimport reimport csvimport osimport codecs#cate = ['women','business','health','yule','sports','it','house','travel','mil','cul']rootdir = './sougou_after2'list = os.listdir(rootdir)pattern1 = r'sports.sohu(.*?)<content>(.*?)</content>'i= 0for x in range(0,len(list)):   path = os.path.join(rootdir, list[x])        #获取目录下文件名字   if os.path.isfile(path):      print path      content = open(path,'r').read()      texts = re.findall(pattern1,content,re.S)      for text in texts:         if text:            dir = './sport_' + str(i) + '.txt'            output = open(dir, 'w')            output.write(text[1])            print i, ':', dir            i = i + 1

原创粉丝点击