基于Python的网页文档处理脚本实现
来源:互联网 发布:js将div内容清空 编辑:程序博客网 时间:2024/06/06 17:40
嵌入式web服务器不同于传统服务器,web需要转换成数组格式保存在flash中,才方便lwip网络接口的调用,最近因为业务需求,需要频繁修改网页,每次的压缩和转换就是个很繁琐的过程,因此我就有了利用所掌握的知识,利用python语言编写个能够批量处理网页文件,压缩并转换成数组的脚本。
脚本运行背景(后续版本兼容):
Python 3.5.1(下载、安装、配置请参考网上教程)
node.js v4.4.7, 安装uglifyjs管理包,支持js文件非文本压缩
具体实现代码如下:
#/usr/bin/pythonimport osimport binasciiimport shutil from functools import partial
def FileReduce(inpath, outpath):
infp = open(inpath, "r", encoding="utf-8")
outfp = open(outpath, "w", encoding="utf-8")
print(outpath+" 压缩成功")
for li in infp.readlines():
if li.split():
li = li.replace('\n', '').replace('\t', '');
li = ' '.join(li.split())
outfp.writelines(li)
infp.close()
outfp.close()
#shell命令行调用(用ugllifyjs2来压缩js文件)def ShellReduce(inpath, outpath):
Command = "uglifyjs "+inpath+" -m -o "+outpath
print(Command)
os.system(Command)
#将文件以二进制读取, 并转化成数组保存def filehex(inpath, outpath):
i = 0
count = 0
a = ''
inf = open(inpath, 'rb');
outf = open(outpath, 'w')
records = iter(partial(inf.read,1), b'')
print(outpath + " 转换成数组成功")
for r in records:
r_int = int.from_bytes(r, byteorder='big')
a += hex(r_int) + ', '
i += 1
count += 1
if i == 16:
a += '\n'
i = 0
a = "const static char " + outpath.split('.')[0].split('/')[-1] + "["+ str(count) +"]={\n" + a + "\n}\n\n"
outf.write(a)
inf.close()
outf.close()
#创建一个新文件夹def mkdir(path):
path=path.strip()
isExists=os.path.exists(path)
#判断文件夹是否存在,不存在则创建
if not isExists:
print(path+' 创建成功')
os.makedirs(path)
else:
pass
return path
#删除一个文件夹(包含内部所有文件)def deldir(path):
path = path.strip()
isExists=os.path.exists(path)
#判断文件夹是否存在,存在则删除
if isExists:
print(path + "删除成功")
shutil.rmtree(path)
else:
pass
def WebProcess(path):
#原网页 ..\basic\
#压缩网页 ..\reduce\
#编译完成.c网页 ..\programe
BasicPath = path + "\\basic"
ProgramPath = path + "\\program"
ReducePath = path + "\\reduce"
#删除原文件夹,再创建新文件夹
deldir(ProgramPath)
deldir(ReducePath)
mkdir(ProgramPath)
for root, dirs, files in os.walk(BasicPath):
for item in files:
ext = item.split('.')
InFilePath = root + "/" + item
OutReducePath = mkdir(root.replace("basic", "reduce")) + "/" + item
OutProgramPath = ProgramPath + "/" + item.replace('.', '_') + '.c'
#根据后缀不同进行相应处理
#html/css 去除'\n','\t', 空格字符保留1个
#js 调用uglifyjs2进行压缩
#gif jpg ico 直接拷贝
#其它 直接拷贝
#除其它外,剩余文件同时转化成16进制数组, 保存为.c文件
if ext[-1] in ["html", "css"]:
FileReduce(InFilePath, OutReducePath)
filehex(OutReducePath, OutProgramPath)
elif ext[-1] in ["js"]:
ShellReduce(InFilePath, OutReducePath)
filehex(OutReducePath, OutProgramPath)
elif ext[-1] in ["gif", "jpg", "ico"]:
shutil.copy(InFilePath, OutReducePath)
filehex(OutReducePath, OutProgramPath)
else:
shutil.copy(InFilePath, OutReducePath)
#获得当前路径
path = os.path.split(os.path.realpath(__file__))[0];
WebProcess(path)
上述实现的原理主要包含:
1.遍历待处理文件夹(路径为..\basic,需要用户创建,并将处理文件复制到其中,并将脚本放置到该文件夹上一层)-- WebProcess
2.创建压缩页面文件夹(..\reduce, 用于存储压缩后文件), 由脚本完成,处理动作:
html, css: 删除文本中的多余空格,换行符
js:调用uglifyjs进行压缩处理
gif, jpg, ico和其它: 直接进行复制处理
3.创建处理页面文件夹(..\program, 用于存储压缩后文件), 由脚本完成,处理动作:
以二进制模式读取文件,并转换成16进制字符串写入到该文件夹中
在文件夹下(shift+鼠标右键)启用windows命令行,并输入python web.py, 就可以通过循环重复这三个过程就可以完成所有文件的处理。
特别注意:所有处理的文件需要以utf-8格式存储,否则读取时会报"gbk"读取错误。
实现效果如下图
html文件:
转换数组:
另外附送一个小的脚本,查询当前文件夹下文件行数和空行数(算是写这个脚本测试时衍生出来的):
#/usr/bin/pythonimport os
total_count = 0;
empty_count = 0;
def CountLine(path):
global total_count
global empty_count
tempfile = open(path)
for lines in tempfile:
total_count += 1
if len(lines.strip()) == 0:
empty_count += 1
def TotalLine(path):
for root, dirs, files in os.walk(path):
for item in files:
ext = item.split('.')
ext = ext[-1]
if(ext in ["cpp", "c", "h", "java", "php"]):
subpath = root + "/" + item
CountLine(subpath)
path = os.path.split(os.path.realpath(__file__))[0];
TotalLine(path)
print("Input Path:", path)
print("total lines: ",total_count)
print("empty lines: ",empty_count)
print("code lines: ", (total_count-empty_count))
来源:博客园
- 基于Python的网页文档处理脚本实现
- python 基于XML生成静态网页的简单实现
- 基于python 3 的selenium模块实现网页自动登陆
- 基于python实现的改变HTML、txt文件编码脚本
- 基于python的selenium实现警告框的处理
- python抓取网页图片的脚本
- 基于文档/视图模式实现网页浏览以及打印功能
- 用于网页判断的智能代理技术的简单实现------------基于python实现(网络爬虫)
- 基于Python 的京东秒杀 火车票脚本
- python编写网页爬虫脚本并实现APScheduler调度
- Python爬取网页的编码处理
- python 脚本处理IDA的Dif文件
- python 一个处理数据的脚本
- 基于js的网页计算器实现
- 基于网页的认证跳转实现
- 基于BeautifulSoup解析的网页爬虫实现
- 基于websocket技术的网页弹幕实现
- 对迅雷5中几处网页脚本错误的处理
- Class.forName加载自定义类(无参数构造方法)
- Bootstrap—200多种字体图形,你想要的都在这里
- Ember 翻译——教程二:设置测试
- python之一键序列化命名当前目录
- AndroidWIFI的基本实现
- 基于Python的网页文档处理脚本实现
- Ember 翻译——教程三:路由和模板
- 个人搭建hexo并部署到github期间遇到的问题
- http协议概念及其工作流程
- Pycharm 2016.3 注册码 mac 亲测可用
- 每日一结,分页查询和Listener监听器
- 【IDEA】IDEA常用配置
- hexo部署问题:spawn git ENOENT
- 实现div的大小随着内容进行动态改变