[发明专利]一种年龄识别方法、装置及终端设备在审
申请号: | 201910076388.6 | 申请日: | 2019-01-26 |
公开(公告)号: | CN109817222A | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 李源 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18;G10L25/15;G10L25/51 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 高星 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音数据 共振峰频率 年龄识别 声带 神经网络模型 语音向量 终端设备 概率 语音 数据处理技术 聚类分析 向量合并 向量化 维度 预设 判定 筛选 预测 保证 | ||
1.一种年龄识别方法,其特征在于,包括:
提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到所述语音数据的第一语音向量;
将所述第一语音向量输入至预设的神经网络模型,得到所述语音数据与各个年龄的对应概率,所述神经网络模型用于预测语音数据对应的年龄及对应概率;
筛选出数值最大的所述对应概率对应的年龄,将该年龄判定为所述语音数据对应的年龄。
2.如权利要求1所述的年龄识别方法,其特征在于,在所述提取语音数据的声带系数及共振峰频率之前,还包括:
获取多个语音样本以及多个所述语音样本分别对应的年龄;
提取多个所述语音样本的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到每个所述语音样本分别对应的第二语音向量;
基于所述多个语音样本分别对应的所述第二语音向量和年龄,利用梯度下降法训练预设的所述神经网络模型,得到训练好的所述神经网络模型。
3.如权利要求1所述的年龄识别方法,其特征在于,所述提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,包括:
对所述语音数据进行分帧处理,得到对应的p个语音帧x(n),设声带系数为bi,则:
其中,x(n)是分帧后的语音帧,p是总帧数,e(n)为预测误差,p为大于1的正整数;
对e(n)取期望值,并对上式进行变形,得到:
对变形得到的公式进行化简,得到对应的方程组:
使E对bi求偏导为0,得到公式:
联解化简得到的方程组以及偏导得到的公式,得到:
其中bi=[1,b2…bp+1]即声带系数对应的向量。
4.如权利要求1或3所述的年龄识别方法,其特征在于,所述提取语音数据的声带系数及共振峰频率,对得到的声带系数及共振峰频率进行向量化处理,并将生成的向量合并得到所述语音数据的第一语音向量,包括:
对得到的长度为m声带系数进行n次差分,得到声带系数对应的长度为m×n的声带向量,其中,m和n均为正整数;
从共振峰频率提取基音频率以及基音频率的一倍频,得到共振峰频率对应的长度为2的基音向量;
合并所述声带向量及所述基音向量,得到所述语音数据的第一语音向量。
5.如权利要求2所述的年龄识别方法,其特征在于,所述神经网络模型包括输入层、多个隐层以及输出层,所述基于所述多个语音样本分别对应的所述第二语音向量和年龄,利用梯度下降法训练预设的所述神经网络模型,得到训练好的所述神经网络模型,包括:
初始化所述输入层与所述隐层之间、多个所述隐层之间以及所述隐层与所述输出层之间的全连接矩阵;
基于sigmod函数计算所述输入层、所述隐层及所述输出层中各个节点的输出值:
其中,Zki为第k层第i个节点的输出向量,Z(k-1)j为第k-1层第j个节点的输出向量,Z11为所述第二语音向量,Wkij为所述全连接矩阵中第k层第i个节点与第k-1层第j个节点的连接权重,bij为第k层第i个节点与第k-1层第j个节点连接对应的偏置量;
基于得到的所述输出层节点的输出值,确定所述神经网络模型对每个所述第二语音向量的预测年龄,并根据该预测年龄与所述多个语音样本分别对应的年龄计算预测误差;
迭代训练Wkij及bij,直至得到的所述预测误差小于预设误差阈值为止,完成对所述神经网络模型的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910076388.6/1.html,转载请声明来源钻瓜专利网。