[发明专利]说话者识别系统及其使用方法在审

申请号：	202080012575.9	申请日：	2020-02-05
公开（公告）号：	CN113557567A	公开（公告）日：	2021-10-26
发明（设计）人：	王琼琼;冈部浩司;越仲孝文	申请（专利权）人：	日本电气株式会社
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/18
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	孙志湧;李兰
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	说话识别系统及其使用方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种说话者识别系统，其包括被配置成存储指令的非暂时性计算机可读介质。所述说话者识别系统进一步包括处理器，所述处理器连接至非暂时性计算机可读介质。处理器被配置成执行有关从输入语音数据中的多个帧中的每个帧提取声学特征的指令。处理器被配置成基于提取的声学特征而使用第一神经网络(NN)来执行有关计算多个帧中的每个帧的显著性值的指令，其中，第一NN是使用说话者后验的经训练的NN。处理器被配置成执行有关使用多个帧中的每个帧的显著性值来提取说话者特征的指令。

背景技术

在说话者识别中，一种系统接收具有可变数目的帧的一系列原始特征，也称为声学特征。帧是一段时间，其中特征包括数据。原始特征是帧级特征，其意味着信息是基于时间段进行分割的。系统预期在说话者标识方案中输出说话者身份，或在说话者验证方案中输出本人/冒名顶替者的结果。输出的说话者身份和本人/冒名顶替者结果两者是在话语级别确定的，其意味着分析了可能包括许多帧的整个信息集。要从帧级输入产生此类话语级输出，在一些说话者识别系统中使用了对所有有效帧的池化过程。通常使用同等加权池化，这意味着无论帧中信息的品质如何，原始特征的每一帧都被赋予相同的重要性。

说话者识别方法包括基于i向量的方法和基于DNN的说话者嵌入方法。这两种方法为此使用同等加权池化i，从而从帧级信息中获得话语级说话者识别结果的输出。

在基于i向量的方法中，从具有L帧特征序列{y₁，y₂，·...，·y_L}的话语中，根据下式提取话语级特征x

M＝μ+Tx，

其中超向量M是通过连接所有M_C生成的，

c是GMM-UBM中高斯分量的指数。所有帧都被同等对待，仅通过对所有帧求和的方式。

在基于DNN的方法中，平均池化层对每一帧都赋予相同的重要性。

发明内容

本公开的至少一个实施例涉及一种使用说话者显著性图的神经网络，以使得每个帧的说话者显著性被用于对从帧级到话语级的池化特征进行加权。与基于i向量和DNN的方法中的同等加权池化不同，说话者显著性图以不同的方式对原始特征的不同帧进行加权。在说话者识别中更有益的帧，即说话者辨别的，在池化过程中将比其他帧具有更多的权重。

附图说明

附图与详细描述一起用于帮助解释本发明的语音识别系统和方法的原理。附图是为了说明而不是限制本技术的应用。

图1是根据至少一个实施例的说话者识别系统的配置的框图。

图2是由根据至少一个实施例的由说话者识别系统进行的操作的流程图。

图3是用于训练根据至少一个实施例的说话者识别系统的操作的流程图。

图4是用于提取根据至少一个实施例的说话者特征的操作的流程图。

图5是根据至少一个实施例的说话者识别系统的配置的框图。

图6是由根据至少一个实施例的说话者识别系统进行的操作的流程图。

图7是用于训练根据至少一个实施例的说话者识别系统的操作的流程图。

图8是用于提取根据至少一个实施例的说话者特征的操作的流程图。

图9是用于实施根据至少一个实施例的说话者识别系统的计算设备的框图。

熟练的技术人员将了解，附图中的元件是为了简单和清楚而图示的并且不一定按比例绘制。例如，附图中图示集成电路架构的元件中的一些的尺寸可能相对于其他元件被夸大，以帮助提高对本示例实施例和替代示例实施例的理解。