[发明专利]一种唤醒训练词采集系统及方法有效
申请号: | 201910810723.0 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110364147B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 鲁霖;曾宗云 | 申请(专利权)人: | 厦门市思芯微科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L15/30;G10L15/34 |
代理公司: | 北京鹏帆慧博知识产权代理有限公司 11903 | 代理人: | 祝辽原 |
地址: | 361001 福建省厦门市火炬高新区(翔*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 唤醒 训练 采集 系统 方法 | ||
1.一种唤醒训练词采集系统,包括移动数据终端、云端存储设备和语音识别云端平台;其特征在于:
移动数据终端对采集到的特定唤醒训练词语音数据进行初步判断;
若初步判断有效,移动数据终端将采集到的特定唤醒训练词语音数据提交到语音识别云端平台进行解析获得相应文本;文本返回移动数据终端;
移动数据终端将文本与特定唤醒训练词语音数据进行匹配,根据匹配程度判断特定唤醒训练词语音数据是否有效;
若判断特定唤醒训练词语音数据有效,移动数据终端将特定唤醒训练词语音数据发送云端存储设备保持为样本唤醒词;
基于所述唤醒训练词采集系统的一种唤醒训练词采集方法包括以下步骤:
步骤一(S101)、用户启动1个或1个以上移动数据终端并初始化系统参数;所述系统参数包括录音权限、地理位置权限;
步骤二(S102)、1个或1个以上移动数据终端从云端存储设备下载唤醒训练词语料;
步骤三(S103)、移动数据终端在采集唤醒训练词语音数据前,先行采集环境噪声音频并提交云端存储设备;具体为:在每次唤醒训练词语音数据采集之前,移动数据终端提示用户在10秒内勿发声,先采集一段10秒环境噪音;采集完成后,保存文件并将环境噪音录音数据上传云端存储设备;
噪音文件名定义:
语料编码+“_”+移动数据终端DeviceID+“_”+NOISE+“_”+时间戳;
步骤四(S104)、1个或1个以上移动数据终端采集唤醒训练词语音数据;
步骤五(S105)、移动数据终端对已采集唤醒训练词语音数据作初步分析处理,初步判断是否可作为样本唤醒词;若初步判断可作为样本唤醒词,移动数据终端将采集到的特定唤醒训练词语音数据提交到语音识别云端平台进行解析获得相应文本;文本返回移动数据终端;移动数据终端将文本与特定唤醒训练词语音数据进行匹配,根据匹配程度判断可作为样本唤醒词;具体为:移动数据终端对唤醒训练词语音数据有效性进行判断,即排除无效语音数据;若初步分析为有效,移动数据终端将采集到的唤醒训练词语音数据提交到语音识别云端平台进行解析;语音识别云端平台对语音数据进行解析获得相应文本,并返回移动数据终端分析结果;移动数据终端根据返回文本与语料作匹配,相似度超过70%,则认为有效,否则无效;
步骤六(S106)、若判断可作为样本唤醒词,移动数据终端将唤醒训练词语音数据发送云端存储设备保持为样本唤醒词;
步骤七(S107)、移动数据终端按预设置次数对样本唤醒词进行反复采集,并提交云端存储设备;
步骤八(S108)、移动数据终端结束唤醒训练词语音数据采集。
2.根据权利要求1所述的一种唤醒训练词采集系统,其特征在于步骤一具体为:所述录音权限用于启动移动数据终端录音功能采集语音录音数据;所述地理位置权限用于启动移动数据终端GPS功能模块记录语音录音数据的地理位置信息。
3.根据权利要求1所述的一种唤醒训练词采集系统,其特征在于步骤二具体为:移动数据终端从云端存储设备下载唤醒训练词语料及语料编码、语料录音次数。
4.根据权利要求1所述的一种唤醒训练词采集系统,其特征在于步骤四具体为:移动数据终端在监听到采集唤醒训练词语音数据指令后,初始化录音参数;所述录音参数包括音频采样频率、声道设置、编码制式和采样大小;在用户录入语料后,移动数据终端根据VAD计算及时停止音频采集,再根据声音能量截取有效音频,然后保存文件;
唤醒训练词语音数据文件名定义:
语料编码+“_”+移动数据终端DeviceID+“_”+轮号+“_”+时间戳。
5.根据权利要求1所述的一种唤醒训练词采集系统,其特征在于步骤六具体为:移动数据终端在判断特定唤醒训练词语音数据有效的情况下,将特定唤醒训练词语音数据提交云端存储设备保存为样本。
6.根据权利要求1所述的一种唤醒训练词采集系统,其特征在于步骤七具体为:移动数据终端按预设置次数采集唤醒训练词语音数据,即为重复执行步骤四(S104)至步骤六(S106)。
7.根据权利要求1所述的一种唤醒训练词采集系统,其特征在于步骤八具体为:用户移动数据终端结束特定唤醒训练词语音数据采集,从步骤四(S104)起重新启动其他特定唤醒训练词语音数据的采集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市思芯微科技有限公司,未经厦门市思芯微科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910810723.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音识别方法、装置、语音识别设备及存储介质
- 下一篇:自然助理交互