[发明专利]关键词样本确定方法、语音识别方法、装置、设备和介质有效

申请号：	201910189413.1	申请日：	2019-03-13
公开（公告）号：	CN109979440B	公开（公告）日：	2021-05-11
发明（设计）人：	李敬	申请（专利权）人：	广州市网星信息技术有限公司
主分类号：	G10L15/08	分类号：	G10L15/08;G10L15/04;G10L15/22
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	510000 广东省广州市南沙区丰泽东路106***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	关键词样本确定方法语音识别装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种关键词样本确定方法、语音识别方法、装置、设备和介质。其中，该关键词样本确定方法包括：获取关键词；在已有的语音识别样本库中获取包括所述关键词的目标语音样本；确定所述目标语音样本中的关键词语音片段，得到关键词样本。本发明实施例提供的技术方案，无需通过专门录制在各个场景下各用户的关键词语音来生成关键词样本，通过在已有的语音识别样本库中获取包含关键词的目标语音样本，并截取出目标语音样本中的关键词语音片段，得到关键词样本，减少了关键词样本的获取成本，提高了关键词样本确定的全面性，通过该关键词样本训练得到的关键词识别模型来识别相应用户语音中包含的关键词，提高了语音识别的准确性。

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种关键词样本确定方法、语音识别方法、装置、设备和介质。

背景技术

随着市场上的智能音箱不断增多，语音识别领域的相关技术得到了很大的发展和应用，其中关键词识别(Key Word Spotting，KWS)技术作为语音交互控制的基础也得到了广泛的应用。

目前，KWS技术中主要采用基于各类神经网络的方式来识别语音中携带的关键词，此时需要采集大量包含预先定义的关键词和非关键词的音频数据，由该音频数据对构建的神经网络中的参数进行训练、验证和测试，使得构建的神经网络能够准确识别用户语音中的关键词信息。

现有方案中通过人工录制对应的关键词语音，以采集大量的音频数据来得到关键词训练集，需要花费较高的成本，而且要求所采集音频数据的录音环境与预先定义的关键词所在的实际环境一致，从而导致各类关键词的生成存在一定的局限性。

发明内容

本发明实施例提供了一种关键词样本确定方法、语音识别方法、装置、设备和介质，提高关键词样本确定的全面性，增强语音识别的准确性。

第一方面，本发明实施例提供了一种关键词样本确定方法，该方法包括：

获取关键词；

在已有的语音识别样本库中获取包括所述关键词的目标语音样本；

确定所述目标语音样本中的关键词语音片段，得到关键词样本。