【分享】方言普通话语音识别语料库(单字部分)-600人

来源:互联网 发布:程序员最喜欢的编辑器 编辑:程序博客网 时间:2024/04/30 14:06

方言普通话语音识别语料库(单字部分)-600人


尽管普通话语音识别系统的开发取得了很大进步,但在面对方言地区普通话时,遇到了挑战。广大方言地区、特别是南方方言区的普通话和标准普通话存在许多差别。因此,要提高方言语音识别率、进行方言语音识别,研究方言地区普通话的语音特点、比较方言地区普通话与方言及标准普通话之间的异同十分重要。需要采集北方方言、吴方言、湘方言、赣方言、客家方言、闽北方言、闽南方言和粤方言在内的八大方言语料。

全部录音人共包括600人,不同录音人的地域分布如表1所示。

                                                                          表1 录音人地域分布

地区

录音人数

比例

北方方言区

250

41.69%

吴方言区

50

8.33%

湘方言区

50

8.33%

赣方言区

50

8.33%

客家方言区

50

8.33%

闽北方言区

50

8.33%

闽南方言区

50

8.33%

粤方言区

50

8.33%

各个地域录音人的基本信息分布情况如表2所示。

                                                                          表2 录音人基本信息分布

年龄

16-30岁(45%)

31-45岁(45%)

46-55岁(10%)

性别

男女比例各占50%

口音

中度二级口音80%,一级乙等5%,三级15%。

文化程度

90%是高中以上学历,10%是高中以下学历


本数据集包含了600名发音人在安静环境下朗读的所有音节和声调,共包括600人分别对1158个单字的录音,单字示例如下:

单字发音列表

编号

单字

发音

1

a1

2

a5

3

ai1

4

ai2

5

ai3

6

ai4

7

an1

8

an3

9

an4

10

ang2

11

ao1

12

ao2

13

ao4

14

ba1

15

ba2

16

ba3

17

ba4

18

ba5

19

bai1

20

bai2



数据下载:http://www.datatang.com/data/39321

数据堂-数据共享服务平台


0 0