[发明专利]一种语音音频筛选系统有效
申请号: | 201910339618.3 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110134819B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 王健;苏战;王鑫;刘卫平 | 申请(专利权)人: | 广州智伴人工智能科技有限公司 |
主分类号: | G06F16/635 | 分类号: | G06F16/635;G06F16/683 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健;张国香 |
地址: | 510000 广东省广州市海珠区广州大道南1*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 音频 筛选 系统 | ||
1.一种语音音频筛选系统,其特征在于,包括:
分析模块,用于对用户喜欢的目标语音音频的音频特征进行分析,获得所述目标语音音频的音频特征;
获取模块,用于获取第一语音音频,并分析所述第一语音音频的音频特征;
对比模块,用于比对所述第一语音音频的音频特征与所述目标语音音频的音频特征,当二者的比对结果满足预设条件时确定所述第一语音音频为可选语音音频,其过程具体步骤包括;
确定所述第一语音音频对应的第一语音音频特征矩阵,通过以下公式(1),对第一语音音频进行综合打分:
其中F为第一语音音频的综合得分,(Y1 Y2…Yn)为第一语音音频特征矩阵,其中Yi为第一语音音频的第i个特征的值,(y1 y2…yn)为目标语音音频的音频特征矩阵,yi为目标语音音频的第i个特征的值,i=1、2、3,…..n,且相同的i所对应的特征为同一类别的特征,为需求解的用户操作矩阵C;
在求解用户操作矩阵C时,首先构建一个用户数据库,该用户数据库中有j条记录,每条记录中都包含有所述n个特征对应的值,形成特征矩阵B,特征矩阵B为j行n列的一个矩阵,每一行代表一条记录,每一列代表一类特征,然后利用公式(2)对矩阵B中的每一个元素进行标准化;
其中bst为矩阵B中的第s行第t列的值,其中s=1、2、3……j,t=1、2、3……n,为bst标准化后的值,为第t列的均值,σt为第t列的方差,对于每一个bst都会通过标准化得到相应的从而可以得到一个新的矩阵B*,为了得到矩阵B*每一列之间的相关性,需要求解矩阵B*中每一列的协方差,形成新的矩阵Cov
其中为矩阵B*的第i列和第x列之间的协方差,i=1、2、3……n,x=1、2、3……n;然后利用公式(3)求解协方差矩阵Cov的特征值和特征向量:
|Cov-λE|=0
(3)
其中Cov为协方差矩阵,E为单位矩阵,所求解出来的λ则为所需的特征向量的值,将所求解的最大特征值λ0带入特征方程式,得出相应的基础解系,则该基础解系的值就为求解的用户操作矩阵
通过算式(1)可以看出求解的用户操作矩阵C和语音特征均会影响到打分的数值,将前述利用公式(1)得到的对第一语音音频的综合打分代入如下公式(4):
min(|F-F1|,|F-F2|,|F-F3|,…,|F-Fm|)
(4)
其中,Fi为语音数据库中,所述用户针对第i个预设语音音频的综合打分,所述i=1、2、3……m;所述语音数据库中还存储了所述用户对所述第i个预设语音音频是否为用户所喜欢的语音音频进行了标注;
然后,根据上述公式(4)所得的值所对应的Ft;
在所述语音数据库中,查找所述Ft所述对应的第t个预设语音音频是否为是用户喜欢的语音音频;如果是,则确定所述第一语音音频为可选语音音频;否则,确定所述第一语音音频不是可选语音音频。
2.根据权利要求1所述的一种语音音频筛选系统,其特征在于,
所述音频特征包括以下参数中的一项或者多项:
停顿时长均值;预设单位时间内的总停顿时长;短时沉默的平均时长;预设单位时间内短时沉默的总时长;平声片段时长均值;预设单位时间内平声片段的总时长;升调片段时长均值;预设单位时间内升调片段的总时长;降调片段时长均值;预设单位时间内降调片段的总时长;平声片段振幅偏移均值;升调片段振幅偏移均值;降调片段振幅偏移均值;预设单位时间内的音调差异和范围;预设单位时间内的音调斜率;音频信号的时频形状和频谱包络样式;以及平声;升调和降调趋势的时间顺序样式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州智伴人工智能科技有限公司,未经广州智伴人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910339618.3/1.html,转载请声明来源钻瓜专利网。