python从零开始写爬虫(3)
来源:互联网 发布:卡盟销售官网源码 编辑:程序博客网 时间:2024/05/21 06:49
接下来我们要的数据还有每篇新闻的具体标题,内容,发布时间,编辑人,以及来源
具体操作如下:
1.任意点开一篇新闻,进入页面
2.获取新闻标题,开发中模式分析标题:
1)定位到对应标题:(标题在id为:artibodyTitle里面)
2)实现代码:
import requestsfrom bs4 import BeautifulSoupres = requests.get('http://news.sina.com.cn/o/2017-01-12/doc-ifxzqnva3333635.shtml')res.encoding='utf-8'soup=BeautifulSoup(res.text,'html.parser')soup.select('#artibodyTitle')[0].text
输出结果:
3.获取时间以及来源:
1)定位对应时间:(时间在#navtimeSource里面)
2)实现代码:
soup.select('#navtimeSource')[0]3)输出结果:
4)继续分析,获取#navtimeSource便签内容
soup.select('#navtimeSource')[0].contents5)得到内容数组,[0]为时间内容,[1]为来源
6)得到时间,去除\t
soup.select('#navtimeSource')[0].contents[0].strip()7)输出结果:
8)接着上面得到的内容数组,[1]为来源
soup.select('#navtimeSource')[0].contents[1].text.strip()
9)输出结果:
4.获取新闻内容:
1)定位新闻内容,分析得到内容在id为artibody的div里面,每一段落都在p标签里
2)代码实现:
artcle = []for p in soup.select('#artibody p'): artcle.append(p.text.strip())#把数据追加到数组里'\n'.join(artcle)#用换行符对数组进行连接3)输出结果:
5.获取编辑人:
1)编辑人在class为article-editor的p标签里面
2)代码实现:
soup.select('.article-editor')[0].text3)输出结果:
4)去除左边‘责任编辑’得到名字:
soup.select('.article-editor')[0].text.lstrip('责任编辑:')5)输出结果:
ok!我们大概就要这么些数据
未完待续....
0 0
- python从零开始写爬虫(3)
- Python--从零开始学会写爬虫(Python)
- python从零开始写爬虫(2)
- 从零开始写Python爬虫 --- 导言
- python从零开始写爬虫(1)-- 开发环境搭建
- python从零开始写爬虫(4)-- 整合代码
- python从零开始写爬虫(5)-- 数据入库
- Python从零开始写爬虫(一)requests库使用
- Python从零开始写爬虫(二)BeautifulSoup库使用
- 从零开始写爬虫111
- 从零开始写Python爬虫 --- 1.3 BS4库的解析器
- 从零开始写Python爬虫 --- 1.4 正则表达式:re库
- 从零开始写Python爬虫 --- 1.9 爬虫实践:悦音台mv排行榜与反爬虫技术
- python写一个爬虫(3)
- 从零开始写Python爬虫 --- 1.5 爬虫实践: 获取百度贴吧内容
- 从零开始写Python爬虫 --- 1.6 爬虫实践: DOTA'菠菜'结果查询
- 从零开始写Python爬虫 --- 1.7 爬虫实践: 排行榜小说批量下载
- 从零开始写Python爬虫 --- 2.1 Scrapy 爬虫框架的安装与基本介绍
- spring配置文件详解--真的蛮详细
- 23种设计模式(4):建造者模式
- PHP中session过期的问题
- 精美Visio"架构图","数据流向图","数据抗压机制",应付领导专用
- 信息提取小程序
- python从零开始写爬虫(3)
- 微信公众号文章内容阅读数采集抓取
- SSH学习(二)Struts2核心配置
- 音视频学习总结
- java IO流:RandomAccessFile
- 为什么工业上用4到20毫安电流传输数据
- mysql快速导出和导入方法
- kindeditor和ueditor编辑器使用方法总结
- 小玉在游泳