英语作为最具影响力的全球流语言之一,与其相关的英语语音识别系统也在学术界和工业界受到广泛关注。 当前阶段,标准英语ASR系统已经能够获得较高的识别正确率,满足一定场景的商用要求,但是口音英语识别仍然是具有挑战性的课题,商用系统往往通过大量的口音标注数据覆盖来缓解口音带来的识别性能影响。
口音语音识别面临着口音本身的不一致性、语速与音素发音的多变性带来的建模难题。另外,带有口音标注的语音数据的短缺也严重限制了相关研究的开展。
Interspeech 2020口音英语语音识别挑战赛 (Interspeech2020 Accented English Speech Recognition, AESR) 向参赛者开放了来自不同国家的共八种口音英语数据,覆盖了各种发音特点、口音轻重,旨在加强英语语种识别、口音语音识别的研究交流。期待来自学术界与工业界的学术研究者能够相互切磋,有所收获。
使用官方提供的各种口音英语的训练数据,训练语种分类模型。提交测试集合上的语种识别结果。
使用规则限定的训练数据,训练语音识别模型。提交测试集合上的语音识别结果文本。测试集合中会出现训练集外的口音以验证模型泛化性能。
数据堂向参赛者提供8个国家(俄罗斯、韩国、美国、葡萄牙、日本、印度、英国、中国)的口音英语数据,每个国家20小时,总量160小时。
大赛面向语音技术爱好者,高等院校、科研单位、企业、创客团队等人员均可报名参赛,每位选手只能加入1支队伍。