[发明专利]一种语音时长规整系统及方法有效
申请号: | 201710192687.7 | 申请日: | 2017-03-28 |
公开(公告)号: | CN107068160B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 陈喆;殷福亮;张鹤鸣 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G10L21/00 | 分类号: | G10L21/00;G10L21/04 |
代理公司: | 大连格智知识产权代理有限公司 21238 | 代理人: | 刘晓琴;张亚男 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 规整 系统 方法 | ||
1.一种语音时长规整系统,其特征在于包括:
对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元;
根据基音周期检测单元获取的基音周期大小,将输入的语音信号进行分帧的分帧单元;
根据基音周期检测单元获取的基音周期大小,通过变速系数计算获取语音规整长度的规整长度计算单元;
根据规整长度计算单元计算出的语音规整长度,对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元;
其中,规整单元进行规整的过程如下:
定义变速系数为α,定义第m帧信号x_m(n3)规整后的长度为N_Lm,则
其中,Lm为x_m(n3)的长度,表示与最接近且小于等于的整数;
使用正弦分解法改变信号波形的重复长度,具体过程如下:
其中,
x′_m(n4)为正弦分解后的第m帧信号,x_m(n3)为规整前的第m帧信号,Lm为x_m(n3)的长度;展开项数Im需要根据x_m(n3)的特征进行自适应选取,n4的取值范围需要根据相位连续点的位置选取;
展开项数Im的自适应选取过程如下:
第m帧信号x_m(n3)的能量为
x_m(n3)经正弦分解后的能量为
其中,a0、ai、bi可分别由式(4)~式(6)求出,I为展开项数变量;S为定值,S′的值随I的增加而增加;
经正弦分解后的信号能量与原信号能量比值为
β值随I的增加而增加;Im应取使β满足条件β0.999999的最小的I值;
寻找相位连续点的过程如下:
定义x_m(pm)为第m帧信号的相位连续点(x_m(pm)为序列x_m(n3)的第pm+1点,pm为其序号且p1=0),则式(3)中n4的取值范围为pm≤n4pm+N_Lm;
首先,计算相位偏离程度:
其中,V(n3)代表第m帧信号x_m(n3)中各点相位与点x′_m-1(n0)相位的偏离程度,点x′_m-1(n0)为经过规整后的第m-1帧信号序列的最后一点;
n0=pm-1+N_Lm-1-1 (11)
pm-1为第m-1帧信号相位连续点的序号,N_Lm-1为第m-1帧信号规整后的长度,Lm-1为第m-1帧信号的长度;ai、bi可由式(5)、式(6)求出;ai′、bi′为第m-1帧信号的展开系数
然后,定位搜索相位连续点:
语音信号具有类周期性,相邻两帧信号波形相似,可以利用前一帧信号最后一点的位置来确定后一帧信号相位连续点的大概位置,以减小搜索范围;定义
start′m=(N_Lm%Lm+pm-1)%Lm-λ*Lm,end′m=(N_Lm%Lm+pm-1)%Lm+λ*Lm
其中,x%y表示x除以y的余数,x,y为不为零的常数;λ为搜索范围系数,取值范围为0≤λ≤0.5,startm、endm分别为第m帧信号相位连续点搜索范围的起始点与结束点;则式(10)中n3的取值范围改为startm≤n3≤endm;
再计算pm:
Vmin=min{V(startm),V(startm+1),…,V(endm)} (14)
其中,Vmin为序列V(n)的最小值,min{}表示大括号内数据的最小值;
若V(Z)=Vmin,startm≤Z≤endm,则令pm=Z;
最后,得到输出序列:
第m帧信号x_m(n3)经过正弦分解后的输出为
第m帧信号x_m(n3)经过时长规整后的实际输出为
y_m(n7)=x′_m(n7+pm),0≤n7N_Lm+U (16)
其中,n7的取值范围多取U点是平滑处理需要,U的取值范围为30≤U≤90。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710192687.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于音频载体的信息隐藏方法及系统
- 下一篇:音频处理装置以及音频处理方法