[发明专利]用于处理语音的人声数据的方法和设备在审
| 申请号: | 201980076729.8 | 申请日: | 2019-11-22 |
| 公开(公告)号: | CN113168837A | 公开(公告)日: | 2021-07-23 |
| 发明(设计)人: | 卢在英;曹根硕;邢知远;张东韩;李在原 | 申请(专利权)人: | 三星电子株式会社 |
| 主分类号: | G10L17/14 | 分类号: | G10L17/14;G16H50/30;G10L17/02;G10L17/18;G10L17/08;G10L15/02;G10L17/00;G10L17/04;G10L15/04;G10L17/26;G10L25/15 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王皎彤;曾世骁 |
| 地址: | 韩国京畿*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 处理 语音 人声 数据 方法 设备 | ||
1.一种处理语音的人声数据的方法,所述方法包括:
从接收自说话者的语音的人声数据提取说话者特征向量;
通过将提取的说话者特征向量定位在多维向量空间上的特定位置处来生成说话者特征图;
通过对位于所述说话者特征图上的至少一个说话者特征向量进行分组来形成指示多个说话者的人声的特征的多个集群;以及
根据所述多个集群对所述多个说话者进行分类。
2.根据权利要求1所述的方法,其中,生成所述说话者特征图的步骤包括:
通过将从人声数据提取的说话者特征向量作为输入应用于深度神经网络DNN模型并且将关于说话者的索引的特征值用作输出来训练所述DNN模型;以及
通过使用所述训练的结果来提取说话者特征向量。
3.根据权利要求1所述的方法,还包括:
从用户接收输入识别信息的语音;
从该语音的人声数据提取说话者特征向量;
将提取的说话者特征向量映射到所述说话者特征图上的所述多个集群中的集群;以及
将所述用户的识别信息注册到所述多个集群中的所述集群。
4.根据权利要求3所述的方法,还包括:在从所述用户接收所述识别信息之前,请求所述用户说出用于注册所述用户的识别信息的区别句子。
5.根据权利要求1所述的方法,其中,形成所述多个集群的步骤包括:通过对位于所述说话者特征图上的彼此在预定距离内的所述至少一个说话者特征向量进行分组来形成所述多个集群。
6.根据权利要求1所述的方法,其中,形成所述多个集群的步骤包括:
通过将说话者特征向量作为输入值应用于深度神经网络DNN模型并将所述多个说话者之间的相似性指数用作输出值来训练所述DNN模型;以及
通过基于所述训练对至少一个相似的说话者特征向量进行分组来形成所述多个集群。
7.根据权利要求1所述的方法,还包括:基于所述说话者特征图上的所述多个集群之间的距离和方向性信息来预测与所述多个集群相应的所述多个说话者之间的关系。
8.一种用于处理语音的人声数据的电子装置,所述电子装置包括:
语音输入器,从说话者接收语音;
控制器,被配置为:
从由语音输入器接收的语音的人声数据提取说话者特征向量,
通过将提取的说话者特征向量定位在多维向量空间上的特定位置处来生成说话者特征图,
通过对位于所述说话者特征图上的至少一个说话者特征向量进行分组来形成指示多个说话者的人声的特征的多个集群,并且
根据形成的所述多个集群对所述多个说话者进行分类;以及
存储器,存储所述说话者特征图。
9.根据权利要求8所述的电子装置,其中,控制器还被配置为:通过将从人声数据提取的说话者特征向量作为输入应用于深度神经网络DNN模型并且将关于说话者的索引的特征值用作输出来训练所述DNN模型,并且通过使用所述训练的结果来提取说话者特征向量。
10.根据权利要求8所述的电子装置,
其中,语音输入器从用户接收输入识别信息的语音,并且
其中,控制器还被配置为:
从该语音的人声数据提取说话者特征向量,
将提取的说话者特征向量映射到所述说话者特征图上的所述多个集群中的集群,并且
将所述用户的识别信息注册到所述多个集群中的所述集群。
11.根据权利要求10所述的电子装置,还包括:
扬声器,输出语音消息,
其中,控制器还被配置为控制扬声器输出请求所述用户说出用于注册所述用户的识别信息的区别句子的语音消息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980076729.8/1.html,转载请声明来源钻瓜专利网。





