【分享】109小时外国人说中文录音数据(样例)

来源:互联网 发布:数据库安全审计 编辑:程序博客网 时间:2024/05/17 08:57

数据介绍


总计约109小时的老外说中文语音数据。

覆盖了英国、美国、法国、意大利、以色列、哥伦比亚、法国等国的人(从邮件后缀的国家统计估计有100多,但准确国家数目无法确知),共1097个发音人。

朗读内容包括的是日常用于外国人的朗读语料,共130767条,其中,字:56874,词:65940,句子:7953。


本数据为该数据的样例数据。


数据格式


audio/为语音数据目录,每个目录下有10~300条音频,格式为16k,16bit,wav数据。

mapping为音频对应朗读文本,包含文件名,汉字和对应的拼音,拼音之间用“-”分隔分,1、2、3、4、0分别代表1声、2声、3声、4声和轻声。


数据样例



数据下载:http://www.datatang.com/data/45887

数据堂-数据共享服务平台


0 0
原创粉丝点击