优秀的手写识别数据集

来源:互联网 发布:ubuntu17.04安装mysql 编辑:程序博客网 时间:2024/06/06 16:50

优秀的手写识别数据集 (2015-10-13 20:26:44)转载▼
分类: 深度学习
优秀的手写识别数据集

手写识别,即HandWriting Recognition。是指将在手写设备上书写时产生的有序轨迹信息化转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,是人机交互最自然、最方便的手段之一。

随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应用时代。手写识别能够使用户按照最自然、最方便的输入方式进行文字输入,易学易用,可取代键盘或者鼠标。手写识别属于文字识别和模式识别范畴,文字识别从识别过程来说分成脱机识别(off-line)和联机识别(on-line)两大类,从识别对象来说又分成手写体识别和印刷体识别两大类。

本文列举了用于手写识别的免费的优秀数据集,并给出可用的下载地址

一. 国内研究机构发布的数据集

  1. HCL2000脱机手写汉字库 http://www.datatang.com/data/13885

北京邮电大学模式识别实验室发布的数据。HCL2000是目前最大的脱机手写汉字库,共有1000个人书写,除了汉字样本库外,还有一个对应的书写者信息库,记录了书写者的年龄、职业、文化程度等信息,用于研究相关影响因素。目前此数据库免费向研究者公开。

这是一份非常优秀的数据,是汉字识别的首选测试数据库。
2. CASIA中文手写数据集 http://www.datatang.com/data/13227

中科院自动化所发布的中文手写数据。包括187个人通过Walcom笔在线输入的手写文本。

  1. CASIA英文手写数据集 http://www.datatang.com/data/13226

中科院自动化所发布的英文手写数据。包括134个人通过Walcom笔在线输入的手写文本。

  1. 基于Wacom笔的用户手写Text数据 http://www.datatang.com/data/16613

中国科学院软件研究所笔式和多通道人机交互研究组发布的数据。包含12用户在执行手写Text任务时Stroke层数据和Point层数据两部分。

  1. 留学生手写汉字 http://www.datatang.com/data/10089

北京语言大学采用数字墨水技术采集的留学生手写汉字库(样例)

二. 国外研究机构发布的数据集

  1. USPS美国邮政服务手写数字识别库 http://www.datatang.com/data/11927

用于数字的手写识别。库中共有9298个手写数字图像(均为16*16像素的灰度图像的值,灰度值已被归一化),其中7291个用于训练,2007个用于测试。

  1. 手写数字MNIST数据集 http://www.datatang.com/data/3082

用于数字的手写识别。库中共有6万个训练集和1万个测试集。

  1. 用于笔交互的手写数字识别(UCI) http://www.datatang.com/data/578

用于数字的手写识别。库中共有44个人的250个手写数据例子

  1. 用于处理和理解手写阿拉伯语的数据集 http://www.datatang.com/data/2188

用于阿拉伯语的手写识别。包括51个人的2万个手写数据。

阅读全文
0 0