[发明专利]说话者验证有效
申请号: | 201780003481.3 | 申请日: | 2017-07-06 |
公开(公告)号: | CN108140386B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | I.L.莫雷诺;万力;王泉 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/18 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽;陈茜 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 验证 | ||
本发明公开了方法、系统和设备,其包括在计算机存储介质上编码的计算机程序,以促进语言无关性说话者验证。在一个方面,方法包括通过用户装置接收代表用户言辞的音频数据的动作。其他动作可以包括将从音频数据和语言识别符获得的输入数据提供到存储在用户装置上的神经网络。可以使用代表不同语言或方言的话语数据训练神经网络。方法可以包括额外动作:基于神经网络的输出产生说话者展示,和基于说话者展示和第二展示确定言辞是所述用户的言辞。方法可以基于确定言辞是所述用户的言辞而为用户提供对用户装置的访问。
技术领域
本申请通常涉及说话者验证(speaker verification)。
背景技术
声音认证为用户装置的用户提供了获得对用户装置的访问的容易的方式。声音认证允许用户解锁和访问用户的装置,而不需要记住或输入密码。然而,多种不同语言、方言、口音等的存在对声音认证领域提出一些挑战。
发明内容
在一个实施方式中,说话者验证模型通过不管说话者的语言、方言或口音如何而促进说话者验证,从而改善常规系统。说话者验证模型可以基于神经网络。可以使用包括言辞和语言识别符的输入训练神经网络。一旦经训练,则通过神经网络的隐藏层输出的启用可被用作声纹,其可与用户装置上的参考展示进行比较。如果声纹和参考展示满足预定相似性临界值,则可认证说话者。
根据一个实施方式,本申请的主题可以实施为有助于语言无关性说话者验证的方法。方法可以包括的动作是:通过用户装置接收代表用户言辞的音频数据;确定与用户装置相关的语言识别符;将从音频数据和所确定的语言识别符获得的一组输入数据提供给存储在用户装置上的神经网络,该神经网络具有参数,使用代表不同语言和不同方言的话语的话语数据对所述参数进行训练。基于响应于接收所述一组输入数据而产生的神经网络的输出,产生表示用户声音特点的说话者展示;基于说话者展示和第二展示确定该言辞是所述用户的言辞;和基于确定该言辞是所述用户的言辞而为用户提供对用户装置的访问。
其他版本包括相应系统、设备和执行方法动作并在计算机存储装置上编码的计算机程序。
这些和其他版本可以可选地包括以下特征中的一个或多个。例如,在一些实施方式中,从音频数据和所确定的语言识别符获得的所述一组输入数据包括从音频数据获得的第一向量和从确定的语言识别符获得的第二向量。
在一些实施方式中,该方法可以包括通过将第一向量和第二向量结合为单个结合向量,将所产生的输入向量提供给神经网络,且基于响应于接收输入向量而产生的神经网络的输出产生表示用户声音特点的说话者展示。
在一些实施方式中,该方法可以包括通过将至少两个其他神经网络的输出结合而产生输入向量,所述至少两个其他神经网络分别基于(i)第一向量、(ii)第二向量、或(iii)第一向量和第二向量两者产生输出,而将所产生的输入向量提供给神经网络,且基于响应于接收输入向量而产生的神经网络的输出,产生表示用户声音特点的说话者展示。
在一些实施方式中,该方法可以包括基于第一向量和第二向量的加权之和而产生输入向量,将所产生的输入向量提供给神经网络,且基于响应于接收输入向量而产生的神经网络的输出,产生表示用户声音特点的说话者展示。
在一些实施方式中,响应于接收所述一组输入数据而产生的神经网络的输出包括通过神经网络的隐藏层产生的一组启用。
在一些实施方式中,基于说话者展示和第二展示确定该言辞是所述用户的言辞可以包括确定第一展示和第二展示之间的距离。
在一些实施方式中,该方法可以包括,基于确定言辞是用户的言辞为用户提供对用户装置的访问包括解锁用户装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780003481.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子设备和用于控制电子设备的方法
- 下一篇:软决策音频解码系统