【分享】690人中文车载语音数据库（样例）

来源：互联网发布：杭州趣翼网络科… 编辑：程序博客网时间：2024/04/27 19:08

数据介绍

不同籍贯、性别的发音人在车载环境下用三星手机录制的中文普通话语料，共690多名录音人，每人310句。所有数据均做过人工转写，转写后有效语音数据为214990条。可用于车载环境下的手机语音识别研发。

此数据为该数据的样例。

具体指标

1)录音人

男性324人，女性371人。年龄分布均匀。口音分布均匀。

2)录音设备

三星手机Note3和Galaxy S4，安卓系统。

3)车型

覆盖日系车、美系车、德系车，具体包括：马自达、君威、帕萨特、凯美瑞、君威、雅阁、奥迪、宝来、昊锐、蒙迪欧、天籁、沃尔沃等车型。

4)道路

低速路（市区道路）录制2/3，高速路（速度100以上）录制1/3。每名录音人分别录制四种环境：

关窗关音乐：前80句

关窗开音乐：第81-155句

开窗开音乐：第156-230句

开窗关音乐：第231-310句

5)录音语料

覆盖20多万个中文句子，每名录音人录制300句。在句子选取时，进行了相似去重并考虑了不同音素的平衡。录音语料分布如下：

来自各领域的用户问题15.8万句，领域覆盖：常用网址、彩票、影视、应用、股票、利率、汇率、周边搜索、限行、短信、音乐、餐饮、电视交互、笑话、唐诗宋词、假期安排、打电话、系统设置、通讯录、地图导航、网络搜索、天气、计算器、公制转换、日期时间、油价、日程安排、航班、火车时刻、发短信等各种领域。

用户短信1.1万句，覆盖常用的短信内容。

微博句子2.2万句。

新闻句子1.4万句。

6)关于转写

录音完毕后，由人工全部转写。以听到的语音为准。

阿拉伯数字一律转成汉字，怎么读怎么转，注意区分“一”和“幺”

英文比较复杂，转写的原则是：按字母读的情况（如缩写词，网址等）一律大写，按词读的则小写

如果文字中有错别字，也纠正过来。

如有噪音，则在文字中插入噪音符号，噪音种类如下：

录音人自己产生的噪音[r]：如咳嗽、打嗝、鼻子声音等。

其他人的声音[p]：非录音人的人声，通常是旁边的司机或管理人员或车外的人发出的声音。

汽车喇叭声[b]

其他噪音[n]

注：录音环境中用到的声音（风声、音乐声）不算噪音。

7)录音格式

16000Hz，16位，单声道，同时存储wav格式和mp3格式

数据格式

每个录音人对应一个唯一编号，如G0001、G0002，每个录音人的数据放在一个文件夹下，包括四类数据：

1)录音人信息文件（.txt）：存放该录音人的性别、年龄、籍贯及所用手机型号

2)Mp3格式的语音：在Mp3文件夹下存放该录音人的各个句子的mp3格式语音文件，文件以句子编号命名。

3)Wav格式的语音：在Wav文件夹下存放该录音人的各个句子的wav格式语音文件，文件以句子编号命名。

转写标注结果统一保存在单独的文本文件中，包括：wav语音文件名、是否有效（1为有效、2为无效）、文字内容。

数据样例

数据下载：http://www.datatang.com/data/45915

数据堂-数据共享服务平台

0 0