基于Python检索系统(2)爬虫
来源:互联网 发布:林俊杰家世 知乎 编辑:程序博客网 时间:2024/06/05 09:12
将上海理工大学的新闻中心(http://www.usst.edu.cn/s/1/t/517/p/2/i/411/list.htm)的标题或全文爬取下来,存入News.txt 文件。简单的应用正则表达式(re模块)和字符串的处理即可实现。
导入requests模块,并使用requests.get(),可以从获得我们所需要的所有信息,得到的结果如下:
可以看出,我们所需要的新闻标题是在标签<font color=''></font>中,其中特殊的带有加粗字体的新闻标题是在标签<font color=''><b></b></font>中的,需要进行简单的处理。最终将近期的新闻标题全部写入News.txt文件。
代码实现:
import requestsimport redef Usst_News_Spider(page=1): url = "http://www.usst.edu.cn/s/1/t/517/p/2/i/" + str(page) + "/list.htm" full_text = requests.get(url) key_content = full_text.text #特殊字符串的处理 content_left_treated = key_content.replace('<b>', '') content_right_treated = content_left_treated.replace('</b>', '') #正则表达式进行匹配 title = re.findall("<font color=''>(.*?)</font>", content_right_treated) print(title) print(key_content) for i in title: f.write(i) f.write("\n")f = open("News.txt", "w", encoding='utf-8')for i in range(1, 380): Usst_News_Spider(i)f.close()
阅读全文
0 0
- 基于Python检索系统(2)爬虫
- 基于Python检索系统(1)总体介绍
- 基于Python检索系统(4)最终版
- 基于Python检索系统(3)分词后建立数据结构
- (转载)几个基于内容图像检索系统
- 基于Scrapy框架的python网络爬虫学习(2)
- 基于内容图像检索系统
- 基于python的爬虫
- 基于内容的图像检索系统(集成语义特征)
- 基于内容的图像检索系统(合集)
- Python爬虫----爬虫入门(2)
- 基于OpenCV的图像检索系统
- 基于python的pixiv爬虫
- 基于Python实现的爬虫源码(1)
- 基于Scrapy框架的python网络爬虫(1)
- 基于Scrapy框架的python网络爬虫学习(3)
- 基于Scrapy框架的python网络爬虫学习(3)
- Windows下爬虫(基于Python)环境配置
- 怎么用PHP创建一个九九乘法表
- shiro整合oauth
- Swift 常量
- 旧SVN损坏项目,更换新的svn路径
- Rikka with Competition
- 基于Python检索系统(2)爬虫
- JavaMail学习笔记(一)、理解邮件传输协议(SMTP、POP3、IMAP、MIME)
- 华大基因生物信息学培训教材
- form表单提交多个下拉框获取select选项值,name相同
- linux下更改磁盘盘号
- Android定义使用颜色的方法
- UVA 10137
- 创建N个单向链表对它进行摧毁和清空操作
- system函数返回值判断