【分享】方言普通话语音识别语料库(单字部分)-600人
来源:互联网 发布:程序员最喜欢的编辑器 编辑:程序博客网 时间:2024/04/30 14:06
方言普通话语音识别语料库(单字部分)-600人
尽管普通话语音识别系统的开发取得了很大进步,但在面对方言地区普通话时,遇到了挑战。广大方言地区、特别是南方方言区的普通话和标准普通话存在许多差别。因此,要提高方言语音识别率、进行方言语音识别,研究方言地区普通话的语音特点、比较方言地区普通话与方言及标准普通话之间的异同十分重要。需要采集北方方言、吴方言、湘方言、赣方言、客家方言、闽北方言、闽南方言和粤方言在内的八大方言语料。
全部录音人共包括600人,不同录音人的地域分布如表1所示。
表1 录音人地域分布
地区
录音人数
比例
北方方言区
250
41.69%
吴方言区
50
8.33%
湘方言区
50
8.33%
赣方言区
50
8.33%
客家方言区
50
8.33%
闽北方言区
50
8.33%
闽南方言区
50
8.33%
粤方言区
50
8.33%
各个地域录音人的基本信息分布情况如表2所示。
表2 录音人基本信息分布
年龄
16-30岁(45%)
31-45岁(45%)
46-55岁(10%)
性别
男女比例各占50%
口音
中度二级口音80%,一级乙等5%,三级15%。
文化程度
90%是高中以上学历,10%是高中以下学历
本数据集包含了600名发音人在安静环境下朗读的所有音节和声调,共包括600人分别对1158个单字的录音,单字示例如下:
单字发音列表
编号
单字
发音
1
阿
a1
2
啊
a5
3
埃
ai1
4
癌
ai2
5
矮
ai3
6
爱
ai4
7
安
an1
8
俺
an3
9
按
an4
10
昂
ang2
11
凹
ao1
12
熬
ao2
13
澳
ao4
14
八
ba1
15
拔
ba2
16
把
ba3
17
罢
ba4
18
吧
ba5
19
掰
bai1
20
白
bai2
数据下载:http://www.datatang.com/data/39321
数据堂-数据共享服务平台
- 【分享】方言普通话语音识别语料库(单字部分)-600人
- 【分享】方言普通话语音识别语料库(语篇部分)-600人
- 【分享】方言普通话语音识别语料库(词汇部分)-600人
- 【分享】方言普通话语音识别语料库(词汇部分)-600人
- 【分享】方言普通话语音识别语料库(单句部分)-600人
- 【分享】方言普通话语音识别语料库样例
- 【分享】500人河南方言手机语音数据库(样例)
- 【分享】500人东北方言手机语音数据库(样例)
- 【分享】2600人中文普通话手机语音数据库(样例)
- 用srec库实现普通话语音识别
- 600人四川方言手机语音数据库(样例)
- 【分享】2000人上海方言手机语音数据库(样例 女)
- 语料库单字字频统计
- 【分享】2600人中文普通话手机语音数据库(样例 男)
- 基于HTK中文普通话语音识别DEMO,LilyMandarinSpeechRecognition V1.0
- 语音识别-----Kaldi学习链接分享
- 语音识别&人脸识别
- 语音识别(MFCC)
- BUPTOJ 0087-0089
- 访问者模式-对象行为模式
- 你以为是这样的,但是偏偏不是这样子
- JDBC事务控制管理
- 2014最新盗QQ方法,100%有效! (有兴趣的请进)
- 【分享】方言普通话语音识别语料库(单字部分)-600人
- IOS开发常用的开源类库4
- FFT-1-FFT计划概述
- Hadoop简介
- 旧u盘丢失文件如何恢复
- 移动硬盘分区后丢失数据怎么恢复
- LeetCode:Convert Sorted Array to Binary Search Tree
- 类的多态
- onlick onsubmit submit 的执行顺序