【分享】690人中文车载语音数据库(样例)

来源:互联网 发布:杭州趣翼网络科… 编辑:程序博客网 时间:2024/04/27 19:08

数据介绍


不同籍贯、性别的发音人在车载环境下用三星手机录制的中文普通话语料,共690多名录音人,每人310句。所有数据均做过人工转写,转写后有效语音数据为214990条。可用于车载环境下的手机语音识别研发。


此数据为该数据的样例。


具体指标


1)录音人

男性324人,女性371人。年龄分布均匀。口音分布均匀。


2)录音设备

三星手机Note3和Galaxy S4,安卓系统。


3)车型

覆盖日系车、美系车、德系车,具体包括:马自达、君威、帕萨特、凯美瑞、君威、雅阁、奥迪、宝来、昊锐、蒙迪欧、天籁、沃尔沃等车型。


4)道路

低速路(市区道路)录制2/3,高速路(速度100以上)录制1/3。每名录音人分别录制四种环境:


关窗关音乐:前80句

关窗开音乐:第81-155句

开窗开音乐:第156-230句

开窗关音乐:第231-310句


5)录音语料

覆盖20多万个中文句子,每名录音人录制300句。在句子选取时,进行了相似去重并考虑了不同音素的平衡。录音语料分布如下:


来自各领域的用户问题15.8万句,领域覆盖:常用网址、彩票、影视、应用、股票、利率、汇率、周边搜索、限行、短信、音乐、餐饮、电视交互、笑话、唐诗宋词、假期安排、打电话、系统设置、通讯录、地图导航、网络搜索、天气、计算器、公制转换、日期时间、油价、日程安排、航班、火车时刻、发短信等各种领域。


用户短信1.1万句,覆盖常用的短信内容。

微博句子2.2万句。

新闻句子1.4万句。


6)关于转写

录音完毕后,由人工全部转写。以听到的语音为准。

阿拉伯数字一律转成汉字,怎么读怎么转,注意区分“一”和“幺”

英文比较复杂,转写的原则是:按字母读的情况(如缩写词,网址等)一律大写,按词读的则小写

如果文字中有错别字,也纠正过来。

如有噪音,则在文字中插入噪音符号,噪音种类如下:

录音人自己产生的噪音[r]:如咳嗽、打嗝、鼻子声音等。

其他人的声音[p]:非录音人的人声,通常是旁边的司机或管理人员或车外的人发出的声音。

汽车喇叭声[b]

其他噪音[n]


注:录音环境中用到的声音(风声、音乐声)不算噪音。


7)录音格式

16000Hz,16位,单声道,同时存储wav格式和mp3格式


数据格式


每个录音人对应一个唯一编号,如G0001、G0002,每个录音人的数据放在一个文件夹下,包括四类数据:


1)录音人信息文件(.txt):存放该录音人的性别、年龄、籍贯及所用手机型号

2)Mp3格式的语音:在Mp3文件夹下存放该录音人的各个句子的mp3格式语音文件,文件以句子编号命名。

3)Wav格式的语音:在Wav文件夹下存放该录音人的各个句子的wav格式语音文件,文件以句子编号命名。

转写标注结果统一保存在单独的文本文件中,包括:wav语音文件名、是否有效(1为有效、2为无效)、文字内容。


数据样例



数据下载:http://www.datatang.com/data/45915

数据堂-数据共享服务平台


0 0
原创粉丝点击