[发明专利]说话者验证方法和系统有效
| 申请号: | 201780019553.3 | 申请日: | 2017-02-21 |
| 公开(公告)号: | CN109155132B | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 斯里·哈利·克里希南·帕塔萨拉蒂;伯恩·霍夫迈斯特;布赖恩·金;罗兰·麦斯 | 申请(专利权)人: | 亚马逊技术公司 |
| 主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/02;G10L15/02 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 何冲;黄隶凡 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 说话 验证 方法 系统 | ||
一种被配置来处理语音命令的系统可将传入音频分类成期望语音、不期望的语音或非语音。期望语音是来自与参考语音是同一说话者的语音。可从配置会话或者从输入语音的包括唤醒词的第一部分来获得所述参考语音。可使用递归神经网络(RNN)编码器来对所述参考语音进行编码以创建参考特征向量。所述参考特征向量和传入音频数据可由训练神经网络分类器来处理,以关于每个帧是否由与所述参考语音相同的说话者说出而标记所述传入音频数据(例如,逐帧地)。所述标记可被传递到自动语音辨识(ASR)部件,所述自动语音辨识部件可允许所述ASR部件将其处理集中在所述期望语音上。
相关申请的交叉引用
本申请要求2016年6月29日提交的标题为“ANCHOREDSPEECH DETECTION ANDSPEECH RECOGNITION”的美国专利申请序列号15/196,228以及2016年3月21日提交的标题为“ANCHORED SPEECH DETECTION ANDSPEECH RECOGNITION”的美国专利申请序列号62/311,082的优先权。以上申请的全部内容通过引用并入本文。
背景技术
语音辨识系统已发展到人们可使用语音与计算设备交互的程度。此类系统采用由人类用户基于接收的音频输入的各种质量来识别说出词语的技术。结合自然语言理解处理技术的语音辨识使得用户能够基于语音控制计算设备来基于用户的说出命令执行任务。语音辨识和自然语言理解处理技术的组合通常称为语音处理。语音处理还可将用户的语音转换成文本数据,随后可将所述文本数据提供给各种基于文本的软件应用程序。
语音处理可由计算机、手持设备、电话计算机系统、信息亭和各种各样的其他设备使用,以改善人机交互。
附图说明
为了更全面地理解本公开,现在参考以下结合附图进行的描述:
图1示出了根据本公开的实施方案的被配置来使用点阵的递归神经网络表示来执行语音辨识的系统。
图2是根据本公开的实施方案的语音处理系统的概念图。
图3示出了根据本公开实施方案的用于语音辨识的神经网络。
图4示出了根据本公开实施方案的用于语音辨识的神经网络。
图5示出了根据本公开的实施方案的音素处理和文字处理。
图6示出了根据本公开的实施方案的语音辨识点阵。
图7示出了根据本公开的实施方案的遍历图6的点阵的不同方式。
图8示出了根据本公开的实施方案的与图6的点阵相关联的N个最佳假设列表。
图9示出了根据本公开的实施方案的编码器的操作。
图10示出了根据本公开的实施方案的识别输入音频数据中的唤醒词。
图11示出了根据本公开的实施方案的从输入音频数据的唤醒词部分识别参考音频数据。
图12示出了根据本公开的实施方案的从预先存储的音频数据识别参考音频数据。
图13示出了根据本公开的实施方案的从第一输入音频数据识别参考音频数据。
图14示出了根据本公开的实施方案的将参考音频数据编码成特征向量。
图15示出了根据本公开的实施方案的使用参考特征向量来对输入音频数据进行分类。
图16A示出了根据本公开的实施方案的使用输入音频数据和对应于输入音频数据的标签来执行声音活动检测。
图16B示出了根据本公开的实施方案的使用输入音频数据和对应于输入音频数据的标签来执行ASR。
图17示出了根据本公开的实施方案的对输入音频数据进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚马逊技术公司,未经亚马逊技术公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780019553.3/2.html,转载请声明来源钻瓜专利网。





