Sci假论文爬虫
来源:互联网 发布:windows 查看端口 编辑:程序博客网 时间:2024/05/23 19:10
基于MIT的假论文生成器的爬虫,及简单的预处理
def fetch(start,end): t=0 for t in xrange(start,end): urlText = [] response = urllib2.urlopen('http://scigen.csail.mit.edu/cgi-bin/scigen.cgi?author=6&author=&author=&author=&author=') html = response.read() class parseText(HTMLParser.HTMLParser): def handle_data(self,data): if data != '\n' or data != '\n\n' or data!= '\n ' : urlText.append(data) lParser = parseText() lParser.feed(html) #print urlText file_object = open('fakepaper/paper'+str(t)+'.txt', 'w') i=0 while i<len(urlText): if 'Back to the SCIgen homepage.'==urlText[i]: del urlText[i] break else: del urlText[i] str2 = '\n'.join(urlText) str2 = ' '.join(str2.split('\n')) file_object.write(str2) file_object.close( ) print t
0 0
- Sci假论文爬虫
- SCI,EI论文
- SCI论文全攻略
- SCI论文,上手指南
- SCI论文写作
- SCI论文小经验
- SCI论文攻略---完整版!!!!
- 发表SCI论文攻略
- SCI论文快速发表
- SCI论文状态
- 如何写SCI论文
- SCI论文结构
- SCI论文写法攻略
- 如何准备SCI论文
- SCI论文投稿窍门
- SCI论文投稿窍门
- SCI、EI论文框架
- SCI论文发表心得
- 动态规划_矩阵连乘问题
- app应用管理
- Oracle数据库学习10之游标
- Oracle Grouping、Rollup 的简单用法
- 图的遍历(DFS&BFS)
- Sci假论文爬虫
- crontab管理linux定时任务
- Oracle数据库学习11之存储结构
- websocket -- 备面试装逼使用
- 【Dubbo二】Zookeeper安装与配置
- C# File.Copy 工作记录
- (POJ1129)Channel Allocation <涂色问题问最少颜色数 剪枝搜索 > || <四色定律>
- Oracle数据库学习12之函数
- spring源码分析之MVC简介