[Python]HTML转换为TXT的脚本
来源:互联网 发布:深圳壹叁叁网络老挝 编辑:程序博客网 时间:2024/05/01 16:45
1 from formatter import AbstractFormatter, NullWriter 2 from htmllib import HTMLParser 3 4 def _(str, in_encoder="gbk", out_encoder="utf8"): 5 return unicode(str, in_encoder).encode(out_encoder) 6 7 8 class myWriter(NullWriter): 9 def __init__(self):10 NullWriter.__init__(self)11 self._bodyText = []12 13 def send_flowing_data(self, str):14 self._bodyText.append(str)15 16 def _get_bodyText(self):17 return '/n'.join(self._bodyText)18 19 bodyText = property(_get_bodyText, None, None, 'plain text from body')20 21 class myHTMLParser(HTMLParser):22 def do_meta(self, attrs):23 self.metas = attrs24 25 def convertFile(filename):26 mywriter = myWriter()27 absformatter = AbstractFormatter(mywriter)28 parser = myHTMLParser(absformatter)29 parser.feed(open(filename).read())30 return ( _(parser.title), parser.formatter.writer.bodyText )31 32 import os33 import os.path34 35 OUTPUTDIR = "./txt"36 INPUTDIR = "."37 if __name__ == "__main__":38 if not os.path.exists(OUTPUTDIR):39 os.mkdir(OUTPUTDIR)40 41 for file in os.listdir(INPUTDIR):42 if file[-4:] == '.htm':43 print "Coverting", file,44 outfilename, text = convertFile(file)45 outfilename = outfilename + '.txt'46 outfullname = os.path.join(OUTPUTDIR, outfilename)47 open(outfullname, "wt").write(text)48 print "Done!"49
0 0
- [Python]HTML转换为TXT的脚本
- [Python]HTML转换为TXT的脚本
- 把txt文件转换为tsv文件的python脚本
- Python 将HTML转换为TXT
- 基于python实现的改变HTML、txt文件编码脚本
- word文档转换为txt-python
- python将txt转换为csv
- python 将txt文件转换为excel
- python:txt文件转换为csv文件
- 转换python脚本为可执行程序的方式
- 一个Excel转换为Json格式的Python脚本
- 一个Excel转换为Json格式的Python脚本
- txt 转换为 html 解析文本 自动打上标签
- word文档转换为PDF、jpg、HTML、txt、swf
- Html 转换 Txt
- 扫描的图片PDF转换为txt
- 提高工作效率的TXT转换为PDF方法
- python实现将txt文件格式转换为arff格式
- Android四大组件之—— 使用服务进行后台操作
- linux 查看 端口3306
- android studio 下guava混淆配置
- 工具[git]_如何使用git创建项目,创建分支
- iOS AutoLayout自动布局中级开发教程(8)-VisualFormat可视化格式语言创建约束
- [Python]HTML转换为TXT的脚本
- JAVA常用类的使用方法_Character类
- android开发之居中向上移动xxdp显示
- 函数指针、callback、message queue
- yii2通用后台实现
- eclipse代码恢复(开发程序代码恢复)
- mvc:exclude-mapping
- Crime Wave – The Sequel - UVa 10746 费用流
- 由于在写oozie hive action时候script属性指定hql脚本时多写了一个斜杠导致的一个悲剧,以及解决方案