[发明专利]小尺寸多通道关键字定位在审

申请号：	202080093004.2	申请日：	2020-01-15
公开（公告）号：	CN114945980A	公开（公告）日：	2022-08-26
发明（设计）人：	沃纪龙;黄亦腾	申请（专利权）人：	谷歌有限责任公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/28
代理公司：	上海华诚知识产权代理有限公司 31300	代理人：	肖华
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	尺寸通道关键字定位
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种方法(800)，其特征在于，所述方法(800)包括：

在用户设备(102)的数据处理硬件(103)处接收表征由与所述数据处理硬件(103)进行通信的麦克风(107)阵列所捕获的流传输多通道音频(118)的输入帧(210)序列，所述流传输多通道音频(118)的每个通道(119)包括由所述麦克风(107)阵列中的单独专用麦克风(107)所捕获的相应音频特征(510)；

对于每个输入帧(210)：

由所述数据处理硬件(103)使用记忆神经网络(300)的三维(3D)奇异值分解过滤器(SVDF)输入层(302)来并行地处理所述流传输多通道音频(118)的每个通道(119)的所述相应音频特征(510)；以及

由所述数据处理硬件(103)使用所述记忆神经网络(300)的中间层(410)，基于所述流传输多通道音频(118)的每个通道(119)的所述相应音频特征(510)的连接(344)来生成对应的多通道音频特征表示(420)；

由所述数据处理硬件(103)使用所述记忆神经网络(300)的顺序堆叠的SVDF层(350)，基于每个输入帧(210)的所述对应的多通道音频特征表示(420)来生成指示所述流传输多通道音频(118)中热字的存在的概率分数(360)；

由所述数据处理硬件(103)确定所述概率分数(360)是否满足热字检测阈值；以及

当所述概率分数(360)满足所述热字检测阈值时，由所述数据处理硬件(103)在所述用户设备(102)上启动唤醒处理，用于处理所述热字和/或所述流传输多通道音频(118)中的所述热字之后的一个或多个其它术语。

2.根据权利要求1所述的方法(800)，其特征在于，所述3D SVDF输入层(302)包括多个并行的SVDF处理单体(304)，所述多个并行的SVDF处理单体(304)中的每个SVDF处理单体(304)与所述流传输多通道音频(118)的相应通道(119)相关联，并且被配置为对所述相应通道(119)的所述相应音频特征(510)进行所述处理。

3.根据权利要求2所述的方法(800)，其特征在于，每个SVDF处理单体(304)包括至少一个神经元(312)，并且每个神经元(312)包括：

相应记忆组件(330)，所述相应记忆组件(330)与所述对应的神经元(312)的相应记忆容量相关联；

第一级(320)，所述第一级(320)被配置为分别对每个输入帧(210)的所述相应通道(119)的所述相应音频特征(510)进行过滤，并且将过滤特征(322)输出到所述相应记忆组件(330)；以及

第二级(340)，所述第二级(340)被配置为对驻留在所述相应记忆组件(330)中的所有的所述过滤音频特征(322)进行过滤。

4.根据权利要求2或3所述的方法(800)，其特征在于，每个输入帧(210)的每个相应通道(119)的所述相应音频特征(510)包括日志过滤器组。

5.根据权利要求4所述的方法(800)，其特征在于，每个输入帧(210)包括四十个日志过滤器组。

6.根据权利要求1-5中任一项所述的方法(800)，其特征在于，所述记忆神经网络(300)的所述顺序堆叠的SVDF层(350)包括初始SVDF层(350a)，所述初始SVDF层(350a)被配置为按顺序接收每个输入帧(210)的所述对应的多通道音频特征表示(420)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202080093004.2/1.html，转载请声明来源钻瓜专利网。