[发明专利]用于说话者验证的神经网络在审
申请号: | 201680028481.4 | 申请日: | 2016-07-27 |
公开(公告)号: | CN107924682A | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | 乔治·海戈尔德;萨米·本希奥;伊格纳西奥·洛佩斯·莫雷诺 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18;G10L17/02 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 李宝泉,周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 说话 验证 神经网络 | ||
技术领域
本文的主题大体上涉及神经网络和在说话者验证任务中采用的其它模型。
背景技术
说话者验证通常涉及基于人的声音的特点来验证人的身份。一些计算装置允许用户通过向装置提供由用户说出的一个或者多个语音样本来向装置“登记”,通过该一个或者多个语音样本,确定表示用户的声音的说话者模型。然后可以相对于说话者模型对在装置处接收到的随后语音样本进行处理和评估以验证用户的身份。
发明内容
本文大体上描述用于说话者验证的系统、方法、装置和训练并且使用神经网络或者其它类型的模型的其它技术。在一些实施方式中,神经网络可以是可由执行说话者验证的计算装置访问的说话者验证模型的组件。通常,可以在迭代中训练神经网络,每个迭代模拟说话者的登记和话语的验证。例如,在每个训练迭代中,可以相对于说话者模型对由神经网络针对给定话语生成的说话者表示进行评估。基于模拟验证话语的说话者表示与一个或者多个模拟登记话语的说话者表示的组合(例如,平均值)的比较,可以更新神经网络的参数以优化说话者验证模型将给定话语分类为由同一个人说出或者由与登记的人不同的人说出的能力。要了解,该操作在提高系统的可靠性方面具有优点。可以将神经网络进一步配置为:在单次通过神经网络时,处理表征整个话语的数据,而不是单独地或者按顺序地处理话语的帧。下面更全面地描述、并且在附图中描绘这些和其它实施方式。
本文描述的主题的一些实施方式包括一种计算机实现的方法。该方法可以包括:在计算系统处选择用于训练神经网络的多个不同训练数据子集。每个训练数据子集包括表征第一说话者的相应话语的多个第一分量和表征第一说话者或者第二说话者的话语的第二分量。对于选择的训练数据子集中的每一个训练数据子集,该方法可以包括:将第一分量中的每个第一分量输入到神经网络中以生成与第一分量中的每个相对应的相应第一说话者表示;将第二分量输入到神经网络中以生成与第二分量对应的第二说话者表示;基于多个第一分量的相应第一说话者表示的平均数来确定第一说话者的模拟说话者模型;将第二说话者表示与模拟说话者模型相比较以将由第二分量表征的话语分类为第一说话者的话语或者不同于第一说话者的说话者的话语;以及基于由第二分量表征的话语是否被正确地分类为第一说话者的话语或者不同于第一说话者的说话者的话语来调整神经网络。
这些和其它实施方式可以包括以下特征中的一个或者多个。
响应于将第二分量输入到神经网络中,可以通过在单次通过神经网络时处理由第二分量表征的整个话语的数据,利用神经网络来生成第二说话者表示。
从多个不同训练数据子集中选择第一训练数据子集可以包括:从分别与不同说话者对应的多组话语中选择与第一说话者对应的第一组话语,从而使得每组话语由仅表征相应组话语的相应说话者的话语的数据组成;从多组话语中选择与第一说话者或者第二说话者对应的第二组话语;通过表征第一组话语中的话语的数据来确定多个第一分量;以及通过表征第二组话语中的话语的数据来确定第二分量。
可以从多组话语中随机选择第一组话语和第二组话语中的至少一个。
第一说话者在多个不同训练数据子集中的至少一些训练数据子集中可以彼此不同。第二说话者在多个不同训练数据子集中的至少一些训练数据子集中可以彼此不同。
多个不同训练数据子集中的第一训练数据子集中的第一分量的总数可以与在多个不同训练数据子集中的第二训练数据子集中的第一分量的总数不同。
将第二说话者表示与模拟说话者模型相比较以将由第二分量表征的话语分类为第一说话者的话语或者不同于第一说话者的说话者的话语可以包括:确定在来自第二说话者表示的值与来自模拟说话者模型的值之间的距离,并且向该距离应用逻辑回归函数。
神经网络可以包括多个隐藏层。神经网络可以不具有softmax输出层。
神经网络可以包括深层神经网络,该深层神经网络具有局部连接隐藏层,该局部连接隐藏层之后是多个全连接隐藏层。
由多个第一分量表征的话语、和由第二分量表征的话语都可以具有固定长度。
神经网络可以是长短期记忆循环神经网络,该长短期记忆循环神经网络被配置为基于表征具有可变长度的话语的数据而被训练。
由多个不同训练数据子集中的相应多个第一分量表征的话语、和由多个不同训练数据子集中的相应第二分量表征的话语都可以是同一词或者短语的话语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680028481.4/2.html,转载请声明来源钻瓜专利网。