Photo OCR

来源：互联网发布：keeper是什么软件编辑：程序博客网时间：2024/04/20 13:02

Photo OCR

本篇博客将会对andrew ng机器学习的最后一章进行描述。最后一章是将会是图像识别的应用。photo ocr 是指照片光学字符识别。

1. problem description and pipeline

照片光学字符识别流程图

2. sliding windows（滑动窗）

滑动窗是一种分类器。
用滑动窗的方法来建立一个行人分类器，先找到一些有行人的图片和一些没行人的图片训练模型，之后再输入测试集进行测试。
文字检测的系统也是如此。先训练模型，在进行应用。

3.Getting lots of data and artifical data

在现有的数据集中引入一些噪声或者变形，来进行人工数据。

得到数据的方式主要有两种，一是直接合成数据，二是在已有数据的基础之上引入噪声或者变形来得到新的数据。
在解决某个机器学习的问题之前。首先考虑两件事。一是利用学习曲线进行合理性检查，看看是否更多的数据对算法的学习是否有效。二是考虑合成10倍数据的时间是否在预期之内。

4. Ceiling Analysis：What Part of the Pipeline to work on next

本小节将会看看调整哪个模块，整个系统的准确率会提升较快，较大。即上限分析。

由上图可知，修改某个阶段的机器学习算法，整个系统的准确度的提升是不一样的。一般花费时间在能很快提升准确率的阶段。

0 0