搜狗新闻语料库 python正则表达式 新闻内容提取
来源:互联网 发布:阿里云邮箱账号找回 编辑:程序博客网 时间:2024/06/15 17:07
最近在做数据挖掘大作业,老师要求100W新闻,自己爬了一大部分,但也还不够,就想到用语料库,
搜狗语料库来源:http://www.sogou.com/labs/resource/cs.php
打开是
<doc>
<url>...</url>
<docno>....</docno>
<contentitle>...</contenttitle>
<content>...</content>
</doc>
这样的形式的已经切割好的一堆文件,这里我只写了运动的获取内容,只需读取后正则匹配写入就ok,如下:
# -*- coding: UTF-8 -*-import codecsimport sysimport reimport csvimport osimport codecs#cate = ['women','business','health','yule','sports','it','house','travel','mil','cul']rootdir = './sougou_after2'list = os.listdir(rootdir)pattern1 = r'sports.sohu(.*?)<content>(.*?)</content>'i= 0for x in range(0,len(list)): path = os.path.join(rootdir, list[x]) #获取目录下文件名字 if os.path.isfile(path): print path content = open(path,'r').read() texts = re.findall(pattern1,content,re.S) for text in texts: if text: dir = './sport_' + str(i) + '.txt' output = open(dir, 'w') output.write(text[1]) print i, ':', dir i = i + 1
阅读全文
1 0
- 搜狗新闻语料库 python正则表达式 新闻内容提取
- 正则表达式提取新闻发生时间
- 导入搜狗实验室新闻语料库
- 精确提取新闻内容
- 提取xml格式新闻内容
- 大量的新闻语料库
- python 任意新闻正文提取
- JSP用正则表达式删除新闻内容中嵌入的图片信息
- [python]根据正则表达式提取指定的内容
- python提取网页的特定内容(正则表达式实现)
- python xpath介绍和新闻内容爬虫
- 正则表达式提取指定内容
- 正则表达式提取html内容
- VB6 正则表达式提取内容
- 提取新闻地点
- Python 实现英文新闻摘要自动提取(1)
- Python 实现英文新闻摘要自动提取 (2)
- 新闻
- 浅读Tomcat源码(五)---classLoader
- cocos lua 问题总结
- 智能推荐相关信息搜罗
- 学习音标的一点感悟
- Signal ()函数详细介绍 Linux函数
- 搜狗新闻语料库 python正则表达式 新闻内容提取
- 利用python进行数据分析学习笔记—Numpy基础知识
- KCF环境搭建相关问题
- [Patch-Based Matching 1] related work
- 将便宜的LED电源转换成可用的形状---凯利讯半导体
- Android Studio查找功能(搜索功能)及快捷键
- java.io.IOException: Connection reset by peer
- Linux学习笔记1
- kylin 维度优化,Aggregation Group,Joint,Hierachy,Mandatory等解析