[发明专利]一种唤醒训练词采集系统及方法有效
申请号: | 201910810723.0 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110364147B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 鲁霖;曾宗云 | 申请(专利权)人: | 厦门市思芯微科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L15/30;G10L15/34 |
代理公司: | 北京鹏帆慧博知识产权代理有限公司 11903 | 代理人: | 祝辽原 |
地址: | 361001 福建省厦门市火炬高新区(翔*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 唤醒 训练 采集 系统 方法 | ||
本发明属于语音交换设备和技术领域,尤其涉及一种唤醒训练词采集系统及方法,具体包括移动数据终端、云端存储设备和语音识别云端平台;移动数据终端对采集到的特定唤醒训练词语音数据进行初步判断;若初步判断有效,移动数据终端将采集到的特定唤醒训练词语音数据提交到语音识别云端平台进行解析获得相应文本;文本返回移动数据终端;移动数据终端将文本与特定唤醒训练词语音数据进行匹配;若判断特定有效,移动数据终端将特定唤醒词语音数据作为样本唤醒词。有益效果:通过开放性采集模式,克服现有唤醒训练词采集过程中存在采集不方便及语音质量不稳定等问题,不断强化唤醒词训练效果,提升系统对唤醒词识别精度。
技术领域
本发明属于语音交换设备和技术领域,尤其涉及一种唤醒训练词采集系统及方法。
背景技术
随着人工智能和大数据技术发展,语音识别技术凭借成本与算法复杂程度低、算力强等优势,在车载系统、机器人、家庭服务、银行、医疗、工业控制等领域得到越来越广泛的应用。
语音唤醒词是触发交互设备唤醒功能的语音口令,语音唤醒是指用户通过说出预设唤醒词实现设备从待机状态恢复到正常工作状态的过程。用户发出准确语音唤醒词是交互过程中关键环节之一。
语音唤醒技术中的唤醒训练词的采集对训练效果尤为重要,直接决定系统对唤醒词识别的精确度。但现有技术方案中至少存在以下缺陷:
一是对具有方言及带有方言口音的普通话识别精度不高;
二是由于我国方言众多,部分使用人群较少的方言目前仍无法识别;
三是语料采集若单纯依靠实验室采集进度将十分缓慢且词汇量有限;若开放权限允许给各自营语音平台进行采集,虽可广泛采集数据,但可能涉及用户隐私的侵犯;
四是通过与现有自营语音平台对接获取语料,其中免费资源的准确率有限,付费资源虽然效果较好但成本昂。
发明内容
为解决上述技术问题,本发明提供了一种唤醒训练词采集系统及方法,通过优化系统结构和方法步骤流程,克服了唤醒训练词采集不方便,及采集到的音频质量不稳定等情况,通过开放性的采集,提高唤醒训练词语音数据采集流程的便捷性,满足用户的个性化需求,且利于获取具有深层价值的音频数据。
具体技术方案为:一种唤醒训练词采集系统,包括移动数据终端、云端存储设备和语音识别云端平台;
移动数据终端对采集到的特定唤醒训练词语音数据进行初步判断;
若初步判断有效,移动数据终端将采集到的特定唤醒训练词语音数据提交到语音识别云端平台进行解析获得相应文本;文本返回移动数据终端;
移动数据终端将文本与特定唤醒训练词语音数据进行匹配,根据匹配程度判断特定唤醒训练词语音数据是否有效;
若判断特定唤醒训练词语音数据有效,移动数据终端将特定唤醒训练词语音数据发送云端存储设备保持为样本唤醒词。
优选的,基于唤醒训练词采集系统的一种唤醒训练词采集方法,包括以下步骤:
步骤一(S101)、用户启动1个或1个以上移动数据终端并初始化系统参数;系统参数包括录音权限、地理位置权限;
步骤二(S102)、1个或1个以上移动数据终端从云端存储设备下载唤醒训练词语料;
步骤三(S103)、移动数据终端在采集唤醒训练词语音数据前,先行采集环境噪声音频并提交云端存储设备;
步骤四(S104)、1个或1个以上移动数据终端采集唤醒训练词语音数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市思芯微科技有限公司,未经厦门市思芯微科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910810723.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音识别方法、装置、语音识别设备及存储介质
- 下一篇:自然助理交互