[发明专利]小尺寸多通道关键字定位在审
申请号: | 202080093004.2 | 申请日: | 2020-01-15 |
公开(公告)号: | CN114945980A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 沃纪龙;黄亦腾 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/28 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 肖华 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 尺寸 通道 关键字 定位 | ||
1.一种方法(800),其特征在于,所述方法(800)包括:
在用户设备(102)的数据处理硬件(103)处接收表征由与所述数据处理硬件(103)进行通信的麦克风(107)阵列所捕获的流传输多通道音频(118)的输入帧(210)序列,所述流传输多通道音频(118)的每个通道(119)包括由所述麦克风(107)阵列中的单独专用麦克风(107)所捕获的相应音频特征(510);
对于每个输入帧(210):
由所述数据处理硬件(103)使用记忆神经网络(300)的三维(3D)奇异值分解过滤器(SVDF)输入层(302)来并行地处理所述流传输多通道音频(118)的每个通道(119)的所述相应音频特征(510);以及
由所述数据处理硬件(103)使用所述记忆神经网络(300)的中间层(410),基于所述流传输多通道音频(118)的每个通道(119)的所述相应音频特征(510)的连接(344)来生成对应的多通道音频特征表示(420);
由所述数据处理硬件(103)使用所述记忆神经网络(300)的顺序堆叠的SVDF层(350),基于每个输入帧(210)的所述对应的多通道音频特征表示(420)来生成指示所述流传输多通道音频(118)中热字的存在的概率分数(360);
由所述数据处理硬件(103)确定所述概率分数(360)是否满足热字检测阈值;以及
当所述概率分数(360)满足所述热字检测阈值时,由所述数据处理硬件(103)在所述用户设备(102)上启动唤醒处理,用于处理所述热字和/或所述流传输多通道音频(118)中的所述热字之后的一个或多个其它术语。
2.根据权利要求1所述的方法(800),其特征在于,所述3D SVDF输入层(302)包括多个并行的SVDF处理单体(304),所述多个并行的SVDF处理单体(304)中的每个SVDF处理单体(304)与所述流传输多通道音频(118)的相应通道(119)相关联,并且被配置为对所述相应通道(119)的所述相应音频特征(510)进行所述处理。
3.根据权利要求2所述的方法(800),其特征在于,每个SVDF处理单体(304)包括至少一个神经元(312),并且每个神经元(312)包括:
相应记忆组件(330),所述相应记忆组件(330)与所述对应的神经元(312)的相应记忆容量相关联;
第一级(320),所述第一级(320)被配置为分别对每个输入帧(210)的所述相应通道(119)的所述相应音频特征(510)进行过滤,并且将过滤特征(322)输出到所述相应记忆组件(330);以及
第二级(340),所述第二级(340)被配置为对驻留在所述相应记忆组件(330)中的所有的所述过滤音频特征(322)进行过滤。
4.根据权利要求2或3所述的方法(800),其特征在于,每个输入帧(210)的每个相应通道(119)的所述相应音频特征(510)包括日志过滤器组。
5.根据权利要求4所述的方法(800),其特征在于,每个输入帧(210)包括四十个日志过滤器组。
6.根据权利要求1-5中任一项所述的方法(800),其特征在于,所述记忆神经网络(300)的所述顺序堆叠的SVDF层(350)包括初始SVDF层(350a),所述初始SVDF层(350a)被配置为按顺序接收每个输入帧(210)的所述对应的多通道音频特征表示(420)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080093004.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电吸收调制激光器和光模块
- 下一篇:放大的空芯光纤传输