爬取糗事百科文字段子,(2016年10月22日可用)
来源:互联网 发布:怎样看出淘宝是包邮的 编辑:程序博客网 时间:2024/05/22 10:53
简单的利用bs4提取了一些东西,中途尝试了网上的多个版本,自己简单的模仿了一下。
主要提取部分:
<a href="/article/117808662" target="_blank" class='contentHerf' ><div class="content"><span>偶遇小朋友玩家家酒!<br/>一小姑娘说:谁要扮演老公的?只见小男孩们纷纷举起小手:我、我、我……<br/>好,这是你的搓衣板和尿壶,你就跪在这上面手上拖着尿壶,我在旁边化妆</span></div></a>
找到相应class提取span即可
from urllib.request import urlopen ,Requestfrom bs4 import BeautifulSoupimport reimport timex=1def gogogo(page): global x url = "http://www.qiushibaike.com/text/page/"+str(page)+"/?s=4922848" H = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'} req = Request(url=url,headers=H) res = urlopen(req) H = BeautifulSoup(res,"html.parser") t = H.findAll('a',{"class":re.compile("content")}) for i in t: lists = i.find('span') f.write(str(x)+":") x=x+1 f.write(lists.get_text()) f.write("\n\n") time.sleep(1)if __name__ =="__main__": f = open("d.txt",'a',encoding='utf-8') for i in range(1,4): gogogo(i) print('Good Job!') f.close()程序代码比较简单,需要模拟一下浏览器访问即可,正在学习计算机网络,第10行的内容可以根据自己的浏览器进行替换,学一下开发者工具还是很重要的。
0 0
- 爬取糗事百科文字段子,(2016年10月22日可用)
- 爬取糗事百科段子
- 糗事百科段子爬取
- Python爬虫实战(1):爬取糗事百科段子
- Python爬虫实战(1):爬取糗事百科段子
- 【网络爬虫】爬取糗事百科段子
- 利用Scrapy爬取糗事百科段子
- python 爬虫 爬取糗事百科段子
- [Scrapy]爬取糗事百科段子
- 爬取糗事百科,朗读段子
- Python爬虫 爬取糗事百科段子
- Python爬虫爬取糗事百科段子
- 爬取糗事百科的段子Demo
- python爬取糗事百科段子
- Python爬虫 爬取糗事百科段子
- 爬取糗事百科图片,(截止至2016/10/23可用)
- 爬糗事百科的段子(爬多页)
- Python爬虫实战一之爬取糗事百科段子
- Scala语言扫盲第四篇:类与对象
- JavaScript函数绑定
- Redis数据类型之String类型
- 二分查找
- Cocos2d-过渡篇(三) 触摸机制
- 爬取糗事百科文字段子,(2016年10月22日可用)
- 欢迎使用CSDN-markdown编辑器
- dfs找环
- 欢迎加入我们的iOS开发交流群
- 编辑距离(动态规划法)
- ionic-app.js分析
- 笔记:TRULY_SPINACH(优酷播单:3D坦克大战实例)
- Java 基于TCP的Socket网络编程的入门及示例
- Uestc381 - Knight and Rook