python爬虫之爬取捞月狗直播信息
来源:互联网 发布:怎么开淘宝网店2016 编辑:程序博客网 时间:2024/04/27 23:06
最近想做一个音乐推荐系统,但是苦于没有数据,所以最近在重新捡起爬虫。写一个Python爬虫来搞一波事情,觉得捞月狗这个平台还不错,就花了点时间写了一个用pyqt5做UI界面的爬虫。顿时就觉得爬虫高大上了不少,诶,你懂我意思的。原来写爬虫爬过淘宝网,赶集网,58同城,还在妹子图网站开过车,就很完美。开车的话就不能说的太多,很多人会晕车的,欸,你懂我意思的。
本次爬虫基于python3.6+Beautifulsoup+pyqt5。基本上python3的版本都可以直接复制使用的。废话扯得多了,直接就上干货了。
上图就是本次爬虫要爬取的页面了,我们要做的就是爬取每个矩形框里面的数据,包括标题(titles),在线人数(nums),主播(hosts),以及直播平台(tvs)。将这四个数据分别抓取下来放在python的数据结构词典(dict)里面。具体代码如下:
get_one_page()函数主要通过requests方法获得当前网页里面的数据,然后再在parse_one_page()函数里面对获得的网页数据进行抓取。笔者用的是beautifulsoup这个很成熟的第三方库,诶顺便说一下python这个东西第三方库太多了,拥抱开源太重要了,你懂我意思的!最后将获得的wb_data返回供其他程序调用。
然后这个时候就需要一个土白土白的界面了。说起界面qt在这个方面确实做得不错,无论在C++上还是python我都极其喜欢qt。
因为本次的重点不在UI上就意思意思的做了个土肥圆的界面,搞不了花里花哨的东西,就很费力气,你懂我意思的。
上图就是抓取之后的界面了,可以看到笔者相当的懒惰,这么丑的东西怎么好意思拿出手,可是笔者这不很累吗。诶,你懂我意思。
那上面的界面如何实现了,又如何和刚才的爬虫结合起来了,这里就不得不说qt的信号槽机制了,简直就是上个时代的创新,就很皮,你知道吧。至于如何写qt的界面那就不是笔者的任务了,讲道理,笔者也只是会点皮毛。具体的代码如下:
说到这里,笔者已经累得不行。
- python爬虫之爬取捞月狗直播信息
- python爬虫之爬取捞月狗直播信息
- python 爬虫之校园招聘信息
- python爬虫之豆瓣图书信息几行字
- python爬虫之获取豆瓣电影信息
- python爬虫之获取新浪新闻信息
- python网络爬虫笔记之信息提取
- Python网络爬虫与信息提取 网络爬虫之规则
- Python 爬虫之 selenium 爬虫,模拟浏览器爬取天猫信息
- Python爬虫之抓取豆瓣信息 全部网页显示
- Python爬虫之实习僧招聘信息及数据分析
- Python爬虫之实习僧招聘信息及数据分析
- Python爬虫初体验之赶集网租房信息获取
- python爬虫之伪造报头来采集网页信息
- python 网络爬虫与信息采取之异常处理
- python爬虫之追女神监督微博信息
- python爬虫学习 之 定向爬取 股票信息
- Python网络爬虫与信息提取(一):网络爬虫之规则
- opengles实现方向光
- Tomcat生命周期管理与观察者模式
- UDT源码分析(3):UDT源码编译及库文件使用举例
- RESTful API中常用的Http状态码
- java 前端页面AES加密数据 后端AES解密
- python爬虫之爬取捞月狗直播信息
- 记录两个网页脚本(open.taobao.com; open.qq.com)
- Mesos是什么
- Calendar计算时间
- getopt 参数解析
- 二次排序
- 最小生成树模板题 HDU1863 畅通工程
- jq 小技巧
- Java实现数字颠倒