爬取QQ空间数据<Python爬虫入门>
来源:互联网 发布:mysql 前后空格为什么 编辑:程序博客网 时间:2024/06/05 14:58
爬取QQ空间数据–Python爬虫入门
本人自习Python四个月,准本研究NLP,目前大三。我在学习爬虫时,发现大部分都是爬豆瓣的数据,可能是这种简单的例子适合初学者,但是我更喜欢爬取一些能切实体现问题的数据,QQ空间就是我能切身体会的数据源。
- Selenium Web自动化测试工具
- QQ空间自动登陆
- 模拟浏览器
- 动态网页数据爬取(本文暂不涉及,日后补充)
未能解决的问题: 1. 登录后内容直接爬取 2. 动态爬取 3. 多线程爬虫实现
准备工作
- Python3.6
- Selenium
具体过程
模拟登陆:
driver.get('https://qzone.qq.com/') driver.switch_to.frame('login_frame') driver.find_element_by_id('switcher_plogin').click() driver.find_element_by_id('u').clear() driver.find_element_by_id('u').send_keys('XXXXXX') #这里填写你的QQ号 driver.find_element_by_id('p').clear() driver.find_element_by_id('p').send_keys('XXXXXX') #这里填写你的QQ密码 driver.find_element_by_id('login_button').click()
获取登陆后页面源码:
response = driver.page_source
获取页面内所有说说动态(仅文字):
abtract_pattern = re.compile('<a target="_blank" href="http://user.qzone.qq.com/(.\d*)" data-clicklog="nick" class="f-name q_namecard " link="nameCard_(.\d*)">(.*?)</a>',re.S) abtract = re.findall(abtract_pattern,str(response)) elements = driver.find_elements_by_class_name('f-info')
打印结果:
i=0 for a in abtract: print(a[2]+" : "+elements[i].text) i=i+1
效果:
注:如有不足,请斧正。微信:cmdegz5sxd
阅读全文
0 0
- 爬取QQ空间数据<Python爬虫入门>
- python爬虫实战笔记---selenium爬取QQ空间说说并存至本地(上)
- python爬虫实战笔记---selenium爬取QQ空间说说并存至本地
- python爬虫入门之爬取大学排名
- 【爬虫】python selenium 爬取数据
- Python爬虫爬取NBA数据
- Python requests爬虫爬取小说数据
- Python爬虫:如何爬取分页数据?
- python爬虫爬取网页表格数据
- python爬虫 爬取淘宝网页数据
- 【Python爬虫】东方财富数据爬取
- Python爬取QQ空间日志及说说
- 【开源】爬取QQ空间说说及简易数据分析
- Python--爬虫QQ空间(一)
- Python爬虫QQ空间好友说说
- QQ空间蜘蛛爬虫数据报告
- [python爬虫入门]爬取豆瓣电影排行榜top250
- python爬虫入门:2--爬取百度贴吧内容
- Python基础 图像处理标准库 Pillow
- 10.dubbo服务多版本、多分组、分组聚合
- 一个特别有意思的程序,在一本书上的题目,但是书上答案是错的。
- lvextend
- hadoop单机版安装及基本功能演示
- 爬取QQ空间数据<Python爬虫入门>
- keystone从uuid token转到fernet token
- 如何在本地服务器部署网站
- 使用Ubuntu64 16.04 英文版环境安装搜狗输入法
- 使用sort()方法对列表进行永久性排序及临时排序
- POI相关文章链接
- 简谈IT风投与中国
- Linux服务器磁盘占满问题解决
- http消息头