python 正则抓取百度贴吧帖子数和关注度
来源:互联网 发布:mac 改键位 编辑:程序博客网 时间:2024/06/05 17:11
获取了全国地级市保存到文档中。如下列格式
上海上饶东方通过python 读取文件列表生成url,抓取贴吧,通过正则表达式获取的帖子数和关注度。
# -*- coding: utf-8 -*-import reimport urllibimport urllib.requestfrom urllib import parsefrom html.parser import HTMLParserimport sysurl_begin = 'https://tieba.baidu.com/f?kw='url_end = '&ie=utf-8'# 读取地级市名称,转换为贴吧地址def get_url(file): list = [] with open(file, 'r') as f: for line in f: line = line.strip('\n') key = parse.quote(line) # 网页编码格式 url = url_begin + key + url_end list.append(url) return list# 获取网页htmldef gethtml(url): page = urllib.request.urlopen(url) html = page.read() html=html.decode('utf-8') return html# 利用正则表达式获取关注、帖子def getstr(html): r1 = r'<span class="card_menNum">(.*)</span>' # 关注 fo1 = re.compile(r1) str1 = fo1.findall(html) r2 = r'<span class="card_infoNum">(.*)</span>' # 帖子数量 fo2 = re.compile(r2) str2 = fo2.findall(html) return str1,str2url_list = get_url('city_new.txt')for url in url_list: html=gethtml(url) num=getstr(html) print(num)
阅读全文
0 0
- python 正则抓取百度贴吧帖子数和关注度
- python抓取百度贴吧帖子
- python3抓取百度贴吧帖子
- Python爬虫实战(1)——百度贴吧抓取帖子并保存内容和图片
- 爬虫抓取百度贴吧帖子标题及作者
- Python爬虫实战:百度贴吧帖子
- Python爬取百度贴吧帖子
- python 爬取百度贴吧 帖子
- Python 3 抓取百度贴吧图片
- python爬虫--抓取百度贴吧
- Python下载百度贴吧帖子里面的图片
- Python爬虫实战(2):百度贴吧帖子
- Python爬虫实战(2):百度贴吧帖子
- 【python爬虫】百度贴吧帖子图片批量保存爬虫
- Python爬虫实战之爬取百度贴吧帖子
- python爬虫小项目: 爬取百度贴吧帖子
- python爬虫(13)爬取百度贴吧帖子
- python爬取百度贴吧的帖子
- 8.4-全栈Java笔记:时间处理相关类(下)
- nc实践
- Rxjava2+Retrofit2上传图片加参数失败问题解决
- Elasticsearch 内置的两个客户端的区别
- 包含min函数的栈
- python 正则抓取百度贴吧帖子数和关注度
- 6月26日云栖精选夜读:成为一名Java高级工程师你需要学什么
- CAP原理和BASE思想
- Apple portal弹窗报文分析
- 将一个字符串转换成一个整数
- PO退货报错-APP-PO-14142 rcv_receipts_eh.event-000: ORA-000
- Vim基本操作
- 经典造轮子-String类的实现
- lnmp nginx和php升级方法