[发明专利]语音编码器中的相位量化在审
申请号: | 201980082842.7 | 申请日: | 2019-12-10 |
公开(公告)号: | CN113196388A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | S·S·詹森;S·斯里尼瓦桑;K·B·福斯 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L19/032 | 分类号: | G10L19/032;G10L19/26;G10L19/08;G10L21/038;G10L19/02;G10L19/125;G10L25/69 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘文灿 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 编码器 中的 相位 量化 | ||
1.一种在实现语音编码器的计算机系统中的方法,包括:
接收语音输入;
对所述语音输入进行编码以产生编码数据,包括:
根据线性预测系数,基于所述语音输入对输入值进行滤波,从而产生残差值;以及
对所述残差值进行编码,包括:
确定相位值集合;以及
对所述相位值集合进行编码,包括使用基函数的加权和以及线性分量来表示所述相位值集合中的至少一些相位值;以及
存储所述编码数据以作为比特流的一部分输出。
2.根据权利要求1所述的方法,其中,确定所述相位值集合包括:
对当前帧的一个或多个子帧应用频率变换,从而产生相应子帧的复幅度值;
聚合所述相应子帧的所述复幅度值;以及
至少部分地基于所聚合的复幅度值来计算所述相位值集合。
3.根据权利要求1所述的方法,其中,对所述相位值集合进行编码还包括:省略具有高于截止频率的频率的所述相位值集合中的任何相位值。
4.根据权利要求1所述的方法,其中,所述基函数是正弦函数。
5.根据权利要求1所述的方法,其中,对所述相位值集合进行编码还包括:
确定对所述基函数加权的系数集合;
确定对所述线性分量参数化的偏移值和斜率值;以及
对所述系数集合、所述偏移值和所述斜率值进行熵编码。
6.根据权利要求1所述的方法,其中,对所述相位值集合进行编码还包括:使用延迟决策方法来确定对所述基函数加权的系数集合,并且其中,所述延迟决策方法包括,对于多个阶段中的每个给定阶段,迭代地进行以下操作:
评估所述系数之中的根据成本函数与所述给定阶段相关联的给定系数的多个候选值,其中,如果存在前一阶段,则所述多个候选值中的每个候选值与来自所述前一阶段的候选解决方案集合中的每个候选解决方案相组合地进行评估;以及
至少部分基于根据所述成本函数的评分,保留所评估的组合的计数,作为来自所述给定阶段的候选解决方案集合。
7.根据权利要求1所述的方法,其中,对所述相位值集合进行编码还包括,使用成本函数来确定对所述基函数加权的候选系数集合的分数,包括:
通过根据所述候选系数集合对所述基函数加权,来重构所述相位值集合的一个版本;以及
在将所述相位值集合的重构版本的倒数应用于复幅度值时,计算线性相位度量。
8.根据权利要求1所述的方法,其中,对所述相位值集合进行编码还包括:至少部分地基于所述编码数据的目标比特率,设置对所述基函数加权的系数的计数。
9.一种或多种计算机可读介质,其上存储有计算机可执行指令,所述计算机可执行指令在由一个或多个处理器编程时,用于使所述一个或多个处理器执行语音编码器的操作,所述操作包括:
接收语音输入;
对所述语音输入进行编码以产生编码数据,包括:
根据线性预测系数,基于所述语音输入对输入值进行滤波,从而产生残差值;
对所述残差值进行编码,包括:
确定相位值集合;以及
对所述相位值集合进行编码,包括省略具有高于截止频率的频率的所述相位值集合中的任何相位值;以及
存储所述编码数据以作为比特流的一部分输出。
10.根据权利要求9所述的一种或多种计算机可读介质,其中,对所述相位值集合进行编码还包括:至少部分地基于所述编码数据的目标比特率和/或基音循环信息,来选择所述截止频率。
11.根据权利要求9所述的一个或多个计算机可读介质,其中,对所述相位值集合进行编码还包括:使用基函数的加权和以及线性分量来表示所述相位值集合中的至少一些相位值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980082842.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于车辆车轮的轮胎
- 下一篇:具有前侧光控膜的液晶显示器