[发明专利]一种多方通话的多模式语音合成方法与系统以及服务器有效
申请号: | 201510593624.3 | 申请日: | 2015-09-14 |
公开(公告)号: | CN105304079B | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 周肖宇 | 申请(专利权)人: | 上海可言信息技术有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L19/008;G10L21/02;G10L25/69;G10L25/72;H04M9/08;H04M7/00;H04M3/58 |
代理公司: | 深圳市行一知识产权代理事务所(特殊普通合伙) 44453 | 代理人: | 杨贤 |
地址: | 200120 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多方 通话 模式 语音 合成 方法 系统 | ||
本发明提供了一种多方通话的多模式语音合成方法与系统以及多方电话通话服务器,所述方法包括解码、统一的重新采样、静音检测、语音合成、回声消除、编码等步骤,其中语音合成按照检测到的非静音的语音信号的路数不同而设置不同的语音合成模式。本发明不仅可以消除溢出现象,而且通过对各个通话方的发言情况进行统计分析,从而根据实际情况提出了个性化的混音处理方案,并且最大程度的保持了各路语音信号的原本特征,算法简单、混音速度快,且不会引入严重的噪声,实现了高质量的多方通话。
技术领域
本发明属于多方通话领域,特别涉及一种多方通话的多模式语音合成方法与系统以及多方电话通话服务器。
背景技术
目前,随着经济社会的发展,能够实现多方、异地实时交流的多方通话技术,例如电话会议,正在蓬勃发展。在多方通话的语音技术方面,传统上是使用控制发言权的方法,即某一时刻只允许一个人发言,每个会议中首先选定一个会议主席,发言者在发言前必须向会议主席申请发言权,在发言结束后释放发言权。然而,这大大限制了会议成员之间的交流。而采用语音合成技术即可解决多方通话中的上述问题。语音合成技术是将各个参会者的语音数据通过混音算法混合,编码后传输给所有的参会者。语音合成技术让更多的参会者可以在同一时刻发言,并将所有发言者的信息传达给所有参会者。在一个多方通话系统中,语音合成技术起着非常关键的作用,其是衡量一个系统质量好坏的重要标准之一。
传统的混音算法是将所有输入的语音数据进行线性叠加,但是采用该方式,一旦语音信号叠加后的值超过线性样本的取值范围,则会产生溢出现象,从而引入噪声。随着混音路数的增多,发生溢出的频率就会越高,随之产生的噪声问题就会越严重,一般情况下,当混音路数超过4路时,由溢出引入的噪音就会过大,直接导致混音后的语音无法辨认。这会大大降低系统的通话性能。目前,对于混音后的溢出问题普遍采用下述方案:在混音过程中对语音信号的振幅做一定的平滑处理,即在线性叠加的同时加入一个混音权重系数,使混音后的样本值控制在应有的范围内,这样就降低了溢出的频率。然而,上述方案虽然可以减弱或者消除溢出现象,但是会对混音后的语音信号做出较大的衰减,增加了算法的复杂度,混音速度慢,同时可能会引入严重的噪声;并且上述方案并没有对各个发言人的发言情况进行统计分析,没有根据统计分析结果进行个性化的混音处理。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种多方通话的多模式语音合成方法与系统。
本发明所述的一种多方通话的多模式语音合成方法,包括如下步骤:
步骤10,对经由通信网络从各个通话方客户端接收的M路语音信号进行解码,得到M路解码后的语音信号,其中每一路解码后的语音信号记为ai,其中M为大于等于1的整数,i为大于等于1且小于等于M的整数;
步骤20,对所述M路解码后的语音信号ai进行Q位的统一的重新采样,得到M路采样后的语音信号,其中采样后的语音信号记为bi;
步骤30,将所述M路采样后的语音信号中的每一路bi,以音频帧为单位,同步进行静音检测,其中,在第j帧获得的非静音的语音信号记为bs(j),在第j帧获得的非静音的语音信号的路数记为N,其中N为大于等于0且小于等于M的整数,s为大于等于1且小于等于N的整数;
步骤40,如果N为0,则返回步骤30;如果N为1,则进入步骤50;如果N等于2,则进入步骤60;如果N大于等于3,则进入步骤70;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海可言信息技术有限公司,未经上海可言信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510593624.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音输出方法及装置
- 下一篇:一种敲击弦乐器的音乐多音符估计方法及系统