web安全与字体——刘尧博士讲座--PDF安全

来源:互联网 发布:淘宝超级搜索 编辑:程序博客网 时间:2024/05/29 16:23

PDF攻击方向

1.通过JavaScript脚本文件

2.通过字体文件

2.1 背景

读取PDF文件字符内容常见方法有①光学识别OCR检测提取字符②最常用的是通过string type 提取ASCII码的text内容。

PDF系统不对字体文件做检查,字体文件的设置也可完全由用户自定义。

2.2 攻击场景

①攻击下载的PDF文件,打开时病毒运行。

②条件检测:绕过论文查重系统(通过修改得到想要的查重率),将随机的论文分配审稿人系统改编为可控的(关键字匹配检测)。

③文件检索:搜索引擎将不相关文件/病毒文件居于首位链接。web安全

2.3  攻击原理

字体文件通过通过修改字体文件改变映射。例如通过修改映射可以将5字变3字,或3字变5字。

3. 解决方案

3.1 OCR  SCAN

可以解决字体文件攻击问题,但是相应检测时间变长,尤其当文档篇幅很长时尤为明显。

同时光学识别无法解决修改比例比较小的情况。但篇幅变长时,正确率会提升。

3.2 仅检测字体文件

相对于OCR缩短检测时间,更进一步的可以仅仅检测高频词汇的字体。

对于其中的有效字符和特殊字符进行转换,规范其表现形式。

原创粉丝点击