爬取网易的新闻网站全函数
来源:互联网 发布:librosa有c语言版本吗 编辑:程序博客网 时间:2024/06/09 16:07
因为初期没有考虑到网易的新闻界面会有很多图片或者视频新闻,所以有时候抓取内文并不成功。
解决方案:
- 通过正则表达式进行过滤网站URL(观察视频、图片的新闻在URL都有所体现),但是目前并不知道Python有没有类似于PHP的正则表达式过滤函数
- 通过对网页内容的分析判断是否可抓取
- 在首页进行筛取,筛除不合适的div或者li里面的新闻,找寻文字新闻统一界面
- 爬取m.163.com页面应该会简单一些
#爬虫初始化函数def init(): import requests from bs4 import BeautifulSoup import json import re#163门户网站抓取函数def MainPage(url): Result = [] res = BeautifulSoup((requests.get(url)).text,'html.parser') for Res in res.select('.cm_fb'): #Result.append(Res.select('a')[0].text) Result.append(Res.select('a')[0]['href']) return Result#163网站内文抓取函数def News(newsurl): result = {} news = BeautifulSoup((requests.get(newsurl)).text,'html.parser') result['title'] = news.select('h1')[0].text result['time'] = news.select('.post_time_source')[0].contents[0].rstrip('\u3000来源: ') result['article'] = news.select('.post_text')[0].text return result#综合函数调出内容def fun(url): for newurl in MainPage(url): News(newurl)init()fun('http://www.163.com/')
阅读全文
0 0
- 爬取网易的新闻网站全函数
- Jsoup爬取网易新闻
- python3爬取新闻网站的所有新闻-新手起步
- python 爬取网易新闻评论
- 爬取163新闻的函数
- [CSDN]分布式网络爬虫技术的实现 对搜狐 网易新闻爬取!
- 文本分类(二):scrapy爬取网易新闻
- 爬虫第三战 json爬取网易新闻
- [python爬虫]使用Python爬取网易新闻
- Python爬虫爬取网站新闻
- 9-某新闻网站爬取实战
- 爬取一个普通翻页的新闻网站代码样例
- 模仿网易新闻做的新闻软件
- 爬虫第四课(RegEx爬取新闻网站)
- 100行python代码爬取5万条网易新闻评论
- 仿网易新闻的ViewpagerIndicator
- iOS仿网易新闻、新浪新闻的新闻客户端
- java新闻爬取
- 学习笔记
- 关于购买界面实现思路
- JMS之——ActiveMQ 高可用与负载均衡集群安装、配置(ZooKeeper + LevelDB + Static discovery)
- 教你如何实现Android Pbap Client功能(即Car Kit)
- arm linux 更新源
- 爬取网易的新闻网站全函数
- 6. ZigZag Conversion
- poj 2955(Summer IV) 区间DP
- 详解深度优先搜索
- js获取浏览器高度和宽度值
- SAP_BW建模第一步——创建信息对象(InfoObject)和信息立方体(InfoCube)
- MAC下MYSQL5.7.17连接不上的问题及解决办法
- ConcurrentHashMap分析
- Javascript定义类(class)的方法