[发明专利]一种基于说话人声纹信息的自动识别身份的方法在审

申请号：	202110406400.2	申请日：	2021-04-15
公开（公告）号：	CN113113022A	公开（公告）日：	2021-07-13
发明（设计）人：	吴春国;陈亮;吕民轩;陈心悦;李世龙	申请（专利权）人：	吉林大学
主分类号：	G10L17/00	分类号：	G10L17/00;G10L15/04;G10L21/02;G10L21/0208
代理公司：	北京远大卓悦知识产权代理有限公司 11369	代理人：	刘小娇
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于说话人声信息自动识别身份方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于说话人声纹信息的自动识别身份的方法，其特征在于，

会议开始前，语音降噪模块录制一段环境音作为会议的背景噪声；

语音分割模块将连续的会议录音分隔根据发言间隔分割为录音片段；

声纹识别模块以所述语音片段作为输入，输出一段固定长度的向量作为该语音片段的声纹向量；

会议说话人识别模块将所述声纹向量和本地声纹库中所有的声纹向量进行比对，选取本地声纹库中相似度最高的一条声纹，根据相似度，判断说话人是否为已注册人；

其中，比较两条声纹向量a,b的相似度：

若两条声纹向量的相似度大于阈值0.7，则判断两条声纹属于同一说话人，为已注册人；反之则不属于同一说话人，为未注册人。

2.如权利要求1所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，利用说话人发言的间隙将会议录音分割为录音片段。

3.如权利要求2所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，会议过程中持续录音，当检测到的分贝数大于背景噪声分贝数的1.5倍时，判定当前有发言人正在发言，当检测到分贝数小于背景噪声分贝数的1.5倍并且持续大于200毫秒时，判定说话人的间隙，进行语音切割。

4.如权利要求1或3所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，所述声纹识别模块提取语音片段的MFCC作为语音特征，将语音特征输入时延神经网络的深度神经网络模型提取第一个全连接层的输出作为声纹向量；

其中，时延神经网络包括：第一时延神经网络层，跨度[-2,2]；第二时延神经网络层，跨度[-1,2]；第三时延神经网络层，跨度[-3,3]；第四时延神经网络层，跨度[7,2]；统计池化层；全连接层；

输入参数为长度为256的23维MFCC语音特征，输出为第一个全连接层的输出，为一个512维向量作为该语音片段的声纹向量。

5.如权利要求1所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，当最大相似度小于阈值，认为该段录音片段属于陌生说话人，会将该录音片段标记为陌生人并编号后加入本地声纹库。

6.如权利要求5所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，还包括：

声纹特征存储与更新模块，用于在运行系统与物理介质间进行声纹特征的读取与存储，声纹特征由身份信息和一条或多条声纹向量构成，以JSON格式存储在物理介质上。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110406400.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载