python网络数据采集-处理格式规范的文字

来源:互联网 发布:淘宝筛选发货地 编辑:程序博客网 时间:2024/06/07 03:01

      你要处理的大多数文字都是比较干净的、格式规范的。格式规范的文字通常可以满足一些需求,不过究竟什么是“格式混乱”,什么算“格式规范”,确实因人而异。

      通常,格式规范的文字具有以下特点:

  • 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
  • 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
  • 排列整齐,没有歪歪斜斜的字
  • 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘
     文字的一些格式问题在图片预处理时可以进行解决。例如,可以把图片转换成灰度图,调整亮度和对比度,还可以更具需要进行裁剪和旋转。但是,这些做法在进行更具扩展性的训练时会遇到一些限制。

    下图是一张带有英文文字的图片


     运行下面的命令来调用Tesseract,读取文件并把结果写到一个文本文件中:

$tesseract text.tiff textoutput | cat textoutput.txt