Python3 使用bs4按标签提取贴吧楼主发表内容
来源:互联网 发布:win 2008 如何打开端口 编辑:程序博客网 时间:2024/04/23 15:45
最近在贴吧看文,想要把楼主的发言内容全部弄下来,一个一个复制好麻烦。于是做了一个半自动的提取工具,很简单。
没有做登录抓取功能,因为比较麻烦,只是用一次就不做登录了。
其实就是一个按标签过滤出来楼主的发言而已,当然页面需要你自己打开贴吧选择只看楼主然后把网页保存为html形式,再运行本程序
#!/usr/bin/env python#coding=utf-8from bs4 import BeautifulSoupimport codecsimport sysimport re#输入保存的html名称即可过滤出想要的内容(需在同一个目录)namei = input("The HTML Name:")nameb = namei+".html"namec = namei+".txt"k = open(nameb,"rb")l = k.read()k.close()soup = BeautifulSoup(l,"html.parser")#楼主的标签jie = soup.find_all('div','d_post_content j_d_post_content ')dr = re.compile(r'<[^>]+>',re.S)dd = dr.sub('',str(jie))#print(dd)sucu = dd.encode()la = open(namec,"wb")la.write(sucu)la.close()print("SUCCESS:"+nameb+"You have got:"+namec)#最后会保存成同名txt文件
0 0
- Python3 使用bs4按标签提取贴吧楼主发表内容
- 爬虫 提取贴吧楼主发布的内容 beatifulsoup和正则配合
- Python爬虫urllib2笔记(三)之使用正则表达式提取百度贴吧网页中的楼主发的图片
- bs4爬虫:获取百度贴吧的内容
- python3.6更新bs4
- 使用BS4解析网页内容 并获取指定内容
- Python使用BeautifulSoup提取特定HTML标签内容
- html去掉标签 提取内容
- Python 爬虫模块 bs4 实战一:获取百度贴吧内容
- Python网络爬虫与信息提取-Day7-基于bs4库的HTML内容遍历方法
- Python学习笔记-1、Python3的urlib.request和bs4.BeautifulSoup使用
- Python3学习笔记 根据标签截取内容
- 正则表达式 提取 html 标签的内容
- beautifulsoup提取所有<a>标签内容 Python
- 使用struts2的标签,将setAttribute里面的内容直接在页面提取
- 使用BS4爬取智联招聘
- bs4的使用
- python3.5.2下安装BeautifuSoup--bs4
- 安装,卸载WPS-office报错,如何解决?
- java根据后台查询结果合并list
- UIWebView的简单使用
- 经验分享之搭建SVN服务器问题集锦
- 【杭电1070】milk (sort+结构体)
- Python3 使用bs4按标签提取贴吧楼主发表内容
- Anroid之HttpClient异步请求数据
- Eclipse中文字体太小的解决办法
- caffe学习(2):安装完caffe后,配置python接口
- 【源码】LruCache源码剖析
- 机房收费整体思路
- HDU 1827 Summer Holiday
- 矩阵论还真有用:触摸屏校准
- hdojBiker's Trip Odometer(水题)