[发明专利]语音信息处理方法、装置、终端及存储介质在审
申请号: | 201710509358.0 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107274906A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 高聪 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18;G10L25/18 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 信息处理 方法 装置 终端 存储 介质 | ||
技术领域
本发明实施例涉及计算机技术,尤其涉及一种语音信息处理方法、装置、终端及存储介质。
背景技术
声纹识别作为生物识别技术的一种,其应用范围越来越广泛,被大量应用在终端设备中。其中,声纹指可通过电学仪器显示的携带语言信息的声波频谱,不同的用户讲话时对应的声波频谱存在差异性,故可通过声纹识别出唯一的用户。
现有技术中,声纹识别方式存在缺陷,需要改进。
发明内容
本发明提供了一种语音信息处理方法、装置、终端及存储介质,提高了声纹识别的准确性,简化了声纹识别流程,提高了终端设备的运行效率,降低了终端设备的能源消耗。
第一方面,本发明实施例提供了一种语音信息处理方法,包括:
接收用户发出的语音信息,所述语音信息基于无序文本语言交互方式获得;
依据所述语音信息确定对应的频域特征图谱,对所述频域特征图谱进行信号处理得到和所述频域特征图谱对应的基于帧序列的第一声学特征;
基于ivector算法和带残差处理的深度卷积神经网络算法对所述第一声学特征进行特征提取得到第二声学特征,将所述第二声学特征转化为和所述用户对应的声纹模型,并将所述声纹模型储存在声纹模型数据库中。
第二方面,本发明实施例还提供了一种声纹识别装置,包括:
接收模块,用于接收用户发出的语音信息,所述语音信息基于无序文本语言交互方式获得;
第一声学特征确定模块,依据所述语音信息确定对应的频域特征图谱,对所述频域特征图谱进行信号处理得到和所述频域特征图谱对应的基于帧序列的第一声学特征;
第二声学特征确定模块,用于基于ivector算法和带残差处理的深度卷积神经网络算法对所述第一声学特征进行特征提取得到第二声学特征;
声纹模型确定模块,用于将所述第二声学特征转化为和所述用户对应的声纹模型,并将所述声纹模型储存在声纹模型数据库中。
第三方面,本发明实施例还提供了一种终端,所述终端包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述语音信息处理方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种语音信息处理方法,该方法包括:
接收用户发出的语音信息,所述语音信息基于无序文本语言交互方式获得;
依据所述语音信息确定对应的频域特征图谱,对所述频域特征图谱进行信号处理得到和所述频域特征图谱对应的基于帧序列的第一声学特征;
基于ivector算法和带残差处理的深度卷积神经网络算法对所述第一声学特征进行特征提取得到第二声学特征,将所述第二声学特征转化为和所述用户对应的声纹模型,并将所述声纹模型储存在声纹模型数据库中。
本发明实施例提供的技术方案,通过接收用户发出的语音信息,所述语音信息基于无序文本语言交互方式获得,依据所述语音信息确定对应的频域特征图谱,对所述频域特征图谱进行信号处理得到和所述频域特征图谱对应的基于帧序列的第一声学特征,基于ivector算法和带残差处理的深度卷积神经网络算法对所述第一声学特征进行特征提取得到第二声学特征,将所述第二声学特征转化为和所述用户对应的声纹模型,并将所述声纹模型储存在声纹模型数据库中,提高了声纹识别的准确性,简化了声纹识别流程,提高了终端设备的运行效率,降低了终端设备的能源消耗。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例提供的一种语音信息处理方法的流程图;
图2是本发明实施例提供的另一种语音信息处理方法的流程图;
图3是本发明实施例提供的一种语音信息处理方法的交互方式的流程图;
图4本发明实施例提供的声纹识别装置的结构框图;
图5是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710509358.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种声纹识别方法及系统
- 下一篇:基于新阈值函数的小波语音去噪方法