[发明专利]说话者识别系统及其使用方法在审
申请号: | 202080012575.9 | 申请日: | 2020-02-05 |
公开(公告)号: | CN113557567A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 王琼琼;冈部浩司;越仲孝文 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 孙志湧;李兰 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 识别 系统 及其 使用方法 | ||
1.一种说话者识别系统,包括:
非暂时性计算机可读介质,所述非暂时性计算机可读介质被配置成存储指令;以及
处理器,所述处理器被连接至所述非暂时性计算机可读介质,
其中,所述处理器被配置成执行用于以下操作的指令:
从输入语音数据中的多个帧中的每个帧,来提取声学特征;
基于所提取的声学特征,使用第一神经网络(NN)来计算针对所述多个帧中的每个帧的显著性值,其中,所述第一NN是使用说话者后验的经训练的NN;以及
使用针对所述多个帧中的每个帧的所述显著性值,来提取说话者特征。
2.根据权利要求1所述的说话者识别系统,其中,所述处理器被配置成执行用于以下操作的指令:
使用加权池化过程来提取所述说话者特征,所述加权池化过程是使用针对所述多个帧中的每个帧的所述显著性值来被实施的。
3.根据权利要求1所述的说话者识别系统,其中,所述处理器被配置成执行用于以下操作的指令:
使用所述说话者后验,来训练所述第一NN。
4.根据权利要求3所述的说话者识别系统,其中,所述处理器被配置成执行用于以下操作的指令:
使用训练数据和说话者标识信息,来生成所述说话者后验。
5.根据权利要求1所述的说话者识别系统,其中,所述处理器被配置成执行用于以下操作的指令:
基于针对所述多个帧中的每个帧的所述说话者后验在所提取的声学特征的基础上的梯度,来计算针对所述多个帧中的每个帧的所述显著性值。
6.根据权利要求1所述的说话者识别系统,其中,所述处理器被配置成执行用于以下操作的指令:
使用所述第一NN的第一节点和所述第一NN的第二节点,来计算针对所述多个帧中的每个帧的所述显著性值,
其中,在所述第一节点处输出的所述多个帧中的第一帧指示出所述第一帧比在所述第二节点处输出的所述多个帧中的第二帧具有更多有用信息。
7.根据权利要求6所述的说话者识别系统,其中,所述处理器被配置成执行用于以下操作的指令:
基于针对在所述第一NN的所述第一节点处输出的所述多个帧中的每个帧的所述说话者后验在所提取的声学特征的基础上的梯度,来计算针对所述多个帧中的每个帧的所述显著性值。
8.根据权利要求1所述的说话者识别系统,其中,所述处理器被配置成执行用于以下操作的指令:
基于所提取的说话者特征,来输出所述输入语音数据的说话者的身份。
9.根据权利要求1所述的说话者识别系统,其中,所述处理器被配置成执行用于以下操作的指令:
基于所提取的说话者特征,来将所述输入语音数据的说话者与存储的说话者标识进行匹配。
10.根据权利要求1所述的说话者识别系统,其中,所述处理器被配置成执行用于以下操作的指令:
响应于所提取的说话者特征匹配于经授权用户,而容许访问计算机系统。
11.一种说话者识别方法,包括:
接收输入语音数据;
从所述输入语音数据中的多个帧中的每个帧,来提取声学特征;
基于所提取的声学特征,使用第一神经网络(NN)来计算针对所述多个帧中的每个帧的显著性值,其中,所述第一NN是使用说话者后验的经训练的NN;以及
使用针对所述多个帧中的每个帧的所述显著性值,来提取说话者特征。
12.根据权利要求11所述的说话者识别方法,其中,对所述说话者特征的所述提取包括:
使用加权池化过程,所述加权池化过程是使用针对所述多个帧中的每个帧的所述显著性值来被实施的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080012575.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:气液分离器
- 下一篇:用于患者接口的充气室插入件