爬虫之爬取163网页
来源:互联网 发布:正能量软件 编辑:程序博客网 时间:2024/05/20 20:47
源码
import requestsfrom bs4 import BeautifulSoupres=requests.get('http://www.163.com/')#res.encoding='utf-8' 好像网易的编码不是utf-8soup=BeautifulSoup(res.text,'html.parser') #用BeautifulSoup解析结果集for news in soup.select('.cm_fb'): #在FireFox中用Firebug检查发现新闻放在class为cm_fb的div下 a = news.select('a')[0].text a_href = news.select('a')[0]['href'] print(a,a_href)
结果
本来想爬取时间,后来发现时间都隐藏在网页的链接中不容易爬取,遂放弃。
############这只是一部分的内容###############胜战之问:如何提高军队打胜仗能力 http://news.163.com/17/0803/08/CQTD8CJ7000189FH.html中方称印度边防部队人数降至40 印辩称:没少 http://news.163.com/17/0803/09/CQTFFIU4000187V9.html为捍卫这3块领土 中国外交部3次发文表明立场 http://news.163.com/17/0803/00/CQSGNBI70001875N.html湖南破特大网络传销案 嫌疑人家中搜出7000万 http://news.163.com/17/0803/10/CQTJ1F8I0001875P.html胜战之问:如何提高军队打胜仗能力 http://news.163.com/17/0803/08/CQTD8CJ7000189FH.html中方称印度边防部队人数降至40 印辩称:没少 http://news.163.com/17/0803/09/CQTFFIU4000187V9.html为捍卫这3块领土 中国外交部3次发文表明立场 http://news.163.com/17/0803/00/CQSGNBI70001875N.html湖南破特大网络传销案 嫌疑人家中搜出7000万 http://news.163.com/17/0803/10/CQTJ1F8I0001875P.html
内文爬取
采用一样的requests方法获得页面标题、内容以充实数据。
阅读全文
0 0
- 爬虫之爬取163网页
- python爬虫之爬取网页
- java之爬虫:爬取网页源代码
- jsoup爬虫爬取网页
- 爬虫爬虫学习: 爬取网页图片
- Python3爬虫之四简单爬虫架构【爬取百度百科python词条网页】
- Scrapy 爬虫框架爬取网页数据
- Python爬虫爬取网页转码报错
- 爬虫phantomjs爬取网页中文乱码
- python爬虫爬取淘宝网页
- 爬虫爬取网页,并用浏览器打开
- python3 爬虫--网页图片爬取
- python爬虫爬取网页表格数据
- python3爬虫第一步-爬取网页源码
- 编写自动爬取网页的爬虫
- 爬虫学习笔记--爬取静态网页
- weiwei爬虫4.2--快速爬取网页
- python爬虫 爬取淘宝网页数据
- c++中6种默认存在的函数
- java的设计模式
- 五子棋AI算法的实现
- UART-中断模式
- VS2010中添加lib库引用
- 爬虫之爬取163网页
- String中intern的方法
- MQTT再学习 -- 漫谈MQTT协议
- gulp压缩js!!
- 用sql 取文件地址后缀,取扩展名,文件类型
- Day2:初识Metasploit(下)
- Integer 与int 赋值比较
- Qt 的QtSql模块介绍
- 【我爱DIY】SOC方案的智能开关,成本只需20多