用python抓取中北大学贴吧信息看热点
来源:互联网 发布:程序员面试笔试宝典 编辑:程序博客网 时间:2024/06/08 12:58
经过几天的学习已可以写出简单的爬虫了,无聊逛贴吧就实验一下,
一、明白你的目的是什么
我只是想看一下最近贴吧小萌新讨论什么在,反应讨论内容的就是标题了,因此我们要把他们的标题爬下来,于是切到网页,最好用谷歌打开。
然后我们就要确定要抓取得对象了
此时就可以编写代码来实现抓取我们的标题了,话不多说上代码,程序员的耿直:
import requestsfrom bs4 import BeautifulSoupurl='http://tieba.baidu.com/f?ie=utf-8&kw=%E4%B8%AD%E5%8C%97%E5%A4%A7%E5%AD%A6&fr=search'#所要抓取的网页地址res=requests.get(url)res.encoding='utf-8'soup=BeautifulSoup(res.text,'html.parser')for i in range(1,50): title=soup.select('.j_th_tit') print(title)
注意代码不一定对。因为此文是补录。作为一个立志成为优秀程序员的男人,这个代码还是要加点东西的。
就把链接就加上吧:已经熄灯了,简单说了。
还是继续审查元素,知道了超链接和标题的位置就阔以了:
上代码,
import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport reimport jsonurl='http://tieba.baidu.com/f?ie=utf-8&kw=%E4%B8%AD%E5%8C%97%E5%A4%A7%E5%AD%A6&fr=search'res=requests.get(url)res.encoding='utf-8'soup=BeautifulSoup(res.text,'html.parser')for i in range(1,50): title=soup.select('.threadlist_title a')[i]['title'] print(title) hurl='http://tieba.baidu.com{}' aurl=soup.select('.threadlist_title a')[i]['href'] nurl=hurl.format(aurl) print(nurl)这样就知道了小萌新在贴吧聊什么了,突然有一种发现别人秘密的感觉。
实例图
【新生必戳】2017中北大学新生群号&答疑帖http://tieba.baidu.com/p/5227470923【新生必看】关于手机卡和校园网的通知http://tieba.baidu.com/p/5247121043学长学姐,我想问一下教务处在几http://tieba.baidu.com/p/5256681391特殊的毕业旅行http://tieba.baidu.com/p/5211978529互关吗互关吗互关吗http://tieba.baidu.com/p/5257103096学校里有没有电影院http://tieba.baidu.com/p/5256895302请问中北大学可以转专业吗?http://tieba.baidu.com/p/5255295200有麻油同湖北的萌新http://tieba.baidu.com/p/5257335895纠结的心理http://tieba.baidu.com/p/5256963745那萌新就来献丑了http://tieba.baidu.com/p/5253516868为什么咱们学校没有校草校花?http://tieba.baidu.com/p/5257306898帮朋友问一下毕业的大佬http://tieba.baidu.com/p/5257261851通知书以到,怎么知道自己那个班http://tieba.baidu.com/p/5255706672水了一天群想告诉新生们的话http://tieba.baidu.com/p/5256225082中北大学的软件工程的宿舍怎么样?http://tieba.baidu.com/p/5255651926中北大学就业协会17帖http://tieba.baidu.com/p/5226152725关于大学生暑期社会实践报告怎么写http://tieba.baidu.com/p/5252685491山西的收到通知书了吗,什么时候发http://tieba.baidu.com/p/5256776564长期贴http://tieba.baidu.com/p/4820783686新生时候加了迎新群http://tieba.baidu.com/p/5256423098找一个中北大学的家教http://tieba.baidu.com/p/5257309476中北大学1b的通知书山西的收到http://tieba.baidu.com/p/5257131093工银e校园注册时营销代码这一项http://tieba.baidu.com/p/5257181535还有什么歌给我推荐?http://tieba.baidu.com/p/5256590955我希望 明天 可以看到不一样的自己http://tieba.baidu.com/p/5256599418有没有人有教室的照片呢?http://tieba.baidu.com/p/5257180451半导体街舞社团2017迎新专贴http://tieba.baidu.com/p/5224331735晒一下山西太原刚到手http://tieba.baidu.com/p/5255283044求一卡通,有没有出去实习的同学http://tieba.baidu.com/p/5256945608各位亲爱的校友,求花花,孙春宜,咖喱咖喱。http://tieba.baidu.com/p/5257292790家里的猫生了一窝宝宝,两个月已http://tieba.baidu.com/p/5254553411萌新又来求助大佬们了(๑•ั็http://tieba.baidu.com/p/5257181864【交易专贴】租房分贴-------2017上半年专贴http://tieba.baidu.com/p/4922218979诗经中那些美腻的诗…http://tieba.baidu.com/p/5254267901中北大学附近旅店推荐http://tieba.baidu.com/p/5257201620【中北大学】社团名单(2017)http://tieba.baidu.com/p/5252367778我回答的没错吧?http://tieba.baidu.com/p/5256857659哪里可以用一卡通打水了?水房关http://tieba.baidu.com/p/5257157149【中北大学】2017年8月份综合交易贴http://tieba.baidu.com/p/5252137331学校的床褥必须强制购买吗?可不http://tieba.baidu.com/p/5257028158学哥学姐们,请问下中北大学有专http://tieba.baidu.com/p/5257205525一院有美艳的小哥哥吗?http://tieba.baidu.com/p/5249478052白话金瓶梅......少儿不宜—转载......http://tieba.baidu.com/p/2713850140中北漫游引力动漫社~纳~新~啦!!!!http://tieba.baidu.com/p/5231212310今年补考报名接受纸质报名吗http://tieba.baidu.com/p/5257220222求租一张一卡通到考研结束http://tieba.baidu.com/p/5257210743这个必须带吗?为啥没人通知啊?http://tieba.baidu.com/p/5256917501大英2有没有车队http://tieba.baidu.com/p/5257203685诸位学哥学姐这个怎么样,看起来http://tieba.baidu.com/p/5233250008
好了就简单说这些,要睡美容觉了!
阅读全文
0 0
- 用python抓取中北大学贴吧信息看热点
- [Python]网页信息抓取
- python 页面信息抓取
- 使用Python抓取网页信息
- 使用Python抓取网页信息
- python 抓取网页网址信息
- python多线程抓取网页信息
- Python 抓取网页特定信息
- python--parser抓取网页信息
- 使用python抓取网站信息
- python抓取简单页面信息
- 关于用burp抓取python上网信息的使用方法
- python练习--天气信息抓取(1)
- Python 利用urllib2 lxml 抓取网页信息
- python抓取豌豆荚app数据信息
- 如何用Python抓取动态页面信息
- 使用python抓取网页上的信息
- 使用python抓取豆瓣电影信息
- 003讲改进游戏--Python深入语法与类型
- HTML5(5)__H5新增标签
- 小希的迷宫
- jQuery——获取option方法汇总
- Retrofit源码浅析
- 用python抓取中北大学贴吧信息看热点
- Windows linux子系统(一)----安装
- linux下安装pycharm遇到的问题
- mac OS 运行git报错; 前端ajax请求, 数据跨域,前端获取不到数据
- HDU 6078 Wavel Sequence
- 模板类和异常
- Android Arcgis(14)、FeatureLayer之范围查询
- MySQL正则表达式
- jQuery中模拟物流查询,跨域访问