[发明专利]基于注意力的弱监督语音检索方法及系统有效
申请号: | 202011550159.2 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112685594B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 张文林;胡恒博;闫红刚;郝朝龙;邱泽宇;李喜坤;贺晓年 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院 |
主分类号: | G06F16/632 | 分类号: | G06F16/632;G06F16/683;G06F40/284;G10L25/30 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 监督 语音 检索 方法 系统 | ||
1.一种基于注意力的弱监督语音检索方法,其特征在于,包含如下内容:
提取文本关键词并转换为关键词特征向量,并对音频数据进行特征提取获取音频特征向量;使用注意力机制将关键词特征向量和音频特征向量进行融合,获取语音检索特征向量;
将语音检索特征向量送入已训练优化的关键词识别模块识别,以检测文本关键词是否出现在语音数据中;
向量融合中,利用关键词特征向量分别对语音特征向量中向量元素进行内积运算,将内积运算结果经过softmax处理得到权重向量;将权重向量中每一个权重乘上对应的语音特征向量特征元素得到加权向量;将加权向量中的每列特征向量进行相加得到融合关键词特征向量和语音特征向量的一个向量,将加权向量中的每行向量进行最大池化得到另一个向量;将该一个向量和另一个向量通过拼接获取语音检索特征向量,或者直接将这两个向量作为语音检索特征向量;
关键词识别模块采用前馈神经网络结构,对输入数据经过前向传播获取置信分数;依据置信分数判断是否含有关键词,并结合权重向量选取最大权重数所在位置为关键词出现位置。
2.根据权利要求1所述的基于注意力的弱监督语音检索方法,其特征在于,利用关键词嵌入模块将文本关键词经过词嵌入操作转换来获取关键词特征向量。
3.根据权利要求1所述的基于注意力的弱监督语音检索方法,其特征在于,利用卷积循环神经网络提取音频数据的音频特征向量,首先对输入音频数据进行分帧,对每帧取多维滤波器组特征并通过一阶和二阶差分来获取每帧FBank特征;将获取到的FBank特征送入卷积循环神经网络中,依次经过多次卷积、最大池化操作及双向长短时记忆网络及线性变换后获取音频特征向量。
4.根据权利要求1所述的基于注意力的弱监督语音检索方法,其特征在于,使用注意力机制将关键词特征向量和音频特征向量进行点积运算来表示两个向量之间的相关性,通过向量融合来获取语音检索特征向量。
5.根据权利要求1所述的基于注意力的弱监督语音检索方法,其特征在于,关键词识别模块训练优化中,收集正负样本构成训练数据,结合标注标签并采用二分类交叉熵损失获取模型参数,其中,正负样本按照数值比例设置。
6.根据权利要求5所述的基于注意力的弱监督语音检索方法,其特征在于,针对给定若干关键词,收集含有若干关键词的句子和对应关键词形成标签为正的若干对实验数据,作为正样本数据元素,并从未出现在句子中的剩余关键词中选取相同数量的若干关键词,并与句子形成标签为负的若干对实验数据,作为负样本数据元素。
7.根据权利要求6所述的基于注意力的弱监督语音检索方法,其特征在于,正样本数据和负样本数据数值比例设定为1:1。
8.一种基于注意力的弱监督语音检索系统,其特征在于,基于权利要求1所述的方法实现,包含:提取模块和识别模块,其中,
提取模块,用于提取文本关键词并转换为关键词特征向量,并对音频数据进行特征提取获取音频特征向量;使用注意力机制将关键词特征向量和音频特征向量进行融合,获取语音检索特征向量;
识别模块,用于将语音检索特征向量送入已训练优化的关键词识别模块识别,以检测文本关键词是否出现在语音数据中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院,未经中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011550159.2/1.html,转载请声明来源钻瓜专利网。