数据介绍
总计约109小时的老外说中文语音数据。
覆盖了英国、美国、法国、意大利、以色列、哥伦比亚、法国等国的人(从邮件后缀的国家统计估计有100多,但准确国家数目无法确知),共1097个发音人。
朗读内容包括的是日常用于外国人的朗读语料,共130767条,其中,字:56874,词:65940,句子:7953。
本数据为该数据的样例数据。
数据格式
audio/为语音数据目录,每个目录下有10~300条音频,格式为16k,16bit,wav数据。
mapping为音频对应朗读文本,包含文件名,汉字和对应的拼音,拼音之间用“-”分隔分,1、2、3、4、0分别代表1声、2声、3声、4声和轻声。
数据样例
数据下载:http://www.datatang.com/data/45887
数据堂-数据共享服务平台