Python3 使用bs4按标签提取贴吧楼主发表内容

来源:互联网 发布:win 2008 如何打开端口 编辑:程序博客网 时间:2024/04/23 15:45

最近在贴吧看文,想要把楼主的发言内容全部弄下来,一个一个复制好麻烦。于是做了一个半自动的提取工具,很简单。
没有做登录抓取功能,因为比较麻烦,只是用一次就不做登录了。

其实就是一个按标签过滤出来楼主的发言而已,当然页面需要你自己打开贴吧选择只看楼主然后把网页保存为html形式,再运行本程序

#!/usr/bin/env python#coding=utf-8from bs4 import BeautifulSoupimport codecsimport sysimport re#输入保存的html名称即可过滤出想要的内容(需在同一个目录)namei = input("The HTML Name:")nameb = namei+".html"namec = namei+".txt"k = open(nameb,"rb")l = k.read()k.close()soup = BeautifulSoup(l,"html.parser")#楼主的标签jie = soup.find_all('div','d_post_content j_d_post_content ')dr = re.compile(r'<[^>]+>',re.S)dd = dr.sub('',str(jie))#print(dd)sucu = dd.encode()la = open(namec,"wb")la.write(sucu)la.close()print("SUCCESS:"+nameb+"You have got:"+namec)#最后会保存成同名txt文件
0 0