英皇体育在线app
英皇体育在线app 英皇体育平台注册 新闻中心 开发业务 英皇体育app网址 网站地图
您所在的位置: 首页 > 新闻中心 > 行业动态  英皇体育在线app

英皇体育在线app:搜狗展示唇语辅助语音识别工作原理:准确率显著提升了

发布时间:2022-08-03 02:37:59 来源:英皇体育平台注册 作者:英皇体育app网址   

  [PConline资讯]2017年年底,搜狗在乌镇“世界互联网大会”上发布了通过唇语识别辅助提升语音识别准确率的初步成果,成为业内首家。近日,搜狗宣布发展一年多的唇语识别模型的准确率,跟最初的50%~60%相比已有很大提升,并达到了可以将原本独立发展的唇语和语音识别结合起来,形成“多模态”识别的水平。

  搜狗于2016年4月22日捐赠1.8亿元给王小川的母校清华大学,联合成立“清华大学天工智能计算研究院”,致力于人工智能领域的前沿技术研究。本次公布的语音和唇语的多模态识别正是由该联合研究院主导。

  相关论文《基于模态注意力的端到端音视觉语音识别》在今年5月12-17日召开的国际声学、语音与信号处理会议(ICASSP)发表,这是由IEEE主办的国际语音识别、信号处理学界的顶级会议。

  搜狗方面对国内科技媒体“量子位”介绍了论文主要内容。据介绍,将唇语识别加入单纯的语音识别,需要克服两个主要问题:一是协调音视频的不同帧率(一般音频为100fps,视频为24fps),二是合理确定音频和唇语内容对整个识别结果分别贡献多大比例。

  显然,这一比例绝不应该是固定下来的。有的时候,语音非常清晰可辨,此时视频内容搞不好反而带来干扰;另一些时候,语音比较模糊,这时才应该合理提升唇语识别的比重。搜狗采用名为“基于注意力的编码器/解码器”的方法来动态确定当前时刻混用唇读和语音识别的比例。

  搜狗方面表示,该论文去年6月立项,10月完成投递,其中接近一半时间用来处理比例问题。

  在语音清晰可辨的环境中,视频的“注意力权重”约为35.9%。当信噪比为0dB(即噪音音量跟信号声音差不多大)时,视频的“注意力权重”提升到接近40%,此时“多模态识别”的准确率相比清晰环境提高了30%。

  在一段演示中,人们模拟在地铁运行环境中说话,同时记录下口型。单纯识别语音的结果是“北京今天天气走”,单纯识别唇语的结果是“嗯北京今天天气怎么样”,合起来即可得到正确结果“北京今天天气怎么样”。

  语音交互技术中心首席科学家陈伟预计,结合视频读唇的语音识别可能会用于未来的搜狗手机输入法,及结合了摄像头的汽车车机导航等环境(也就意味着届时输入法将请求摄像头权限以提升识别准确率)。

上一篇:世界上用法最“严谨”的语言国际重要文件都用它写不是英语 下一篇:自然语言处理技术可提升创新效率
   
友情链接:

方舟物联

方舟集团-香港

方舟集团-深圳

包拯企业网站管理

艺之都网络

 
英皇体育在线app

电话:0755-33563634

邮件:2338112273@qq.com

地址:深圳市龙岗区南湾街道万国城C座11楼

英皇体育在线app_平台注册网址 版权所有 2014-2019 备案序号:

网站运维:英皇体育在线app

地址:深圳市龙岗区李朗路万国城C座11楼ABC