[发明专利]一种基于前馈记忆网络的多通道防串音动态规划策略在审
申请号: | 202111654488.6 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114566150A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 麦联韬;唐海江;朱宇;袁宇豪 | 申请(专利权)人: | 杭州云嘉云计算有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/20;G10L15/22;G10L15/26;G10L15/28;G10L21/0208;H04R1/08;H04R3/04 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
地址: | 311100 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 记忆 网络 通道 串音 动态 规划 策略 | ||
本发明公开了一种基于前馈记忆网络的多通道防串音动态规划策略,具体包括以下步骤:步骤S1:采集音源信息;步骤S2:自适应音源增益;步骤S3:串音过滤过程;步骤S4:输出处理后的声音,获得多通道识别结果;本发明提供的自适应音源增益过程不受限于具体现场环境结构、硬件采音设备和发言人的行为,能实时动态地对发言人的声学信号进行有助于提升识别效果的音源增益,从而避免传统方法的调优成本,保障实录过程;通过有效的声学特征提取和串音辨识策略模型,实时识别和过滤串音通道,显著降低了串音现象的发生;对较为极端的现场环境,本发明提供的调整参数简单易用,能快速及时地作出针对性调整,提升实录效果。
技术领域
本发明涉及声音处理领域,尤其是涉及一种基于前馈记忆网络的多通道防串音动态规划策略。
背景技术
在进行以语音识别为基础的多人实录系统中,室内环境结构、麦克风硬件、说话人位置和声音,都显著影响现场识别效果,各因素的变动容易造成收音微弱、麦克风串音,进而导致明显的识别率下降和识别结果错误等,从而影响使用体验。市面上还没有一种同时有效解决以上问题的方法、装置或设备。自适应音源增益和防串音方法提供简单通用的配置参数,实现了适配不同实录现场,综合考虑环境、硬件、软件、发言人方式等因素,实时分析各发言人通道的声学信息,进行相应的音量特征增益和串音过滤,极大程度上解决了声音小的识别丢字和各通道串音问题,有效保障了不同实录现场的语音识别效果。
目前应用的语音识别系统保证高识别准确率具有诸多前提,其中最重要的包括:
1.发言人讲话稳定清晰明了,且能被拾音设备平稳采集;;
2.发言人逐一讲话,多人同时发言易出现错误的识别结果,最常见的错误现象是其他人讲话的识别结果在自己识别界面上出现;;
3.实录现场环境较为安静,白噪音少,且具有均匀的收音环境。
例如,一种在中国专利文献上公开的“一种防串音信号干扰的PCB板以及连接器”,其公开号为CN214205951U,包括声音小的声源不易被拾音和识别、多个发言人同时发言易相互串音和丢字、现场环境对噪音的过滤效果形成大量干扰音源等问题。
发明内容
本发明是为了克服现有技术中,应用的语音识别系统实录环境中容易出现以下现象:1)声音小的发言人难以被拾音和识别;2)声音大的发言人容易串入其他采集设备造成干扰;3)多个发言人同时发言易相互串音和丢字4)现场环境对噪音的过滤效果差形成大量干扰音源,从而导致识别结果混乱等问题,提供一种基于前馈记忆网络的多通道防串音动态规划策略,极大程度上解决了声音小的音源丢失和各通道串音问题,有效提升语音识别效果。
为了实现上述目的,本发明采用以下技术方案:
一种基于前馈记忆网络的多通道防串音动态规划策略,包括以下步骤:
步骤S1:采集音源信息;
步骤S2:自适应音源增益;
步骤S3:串音过滤过程;
步骤S4:输出处理后的声音,获得多通道识别结果。
作为优选,步骤S1包括以下步骤:
步骤S1A:将采集设备分区布置采音设备及其相关组件;
步骤S1B:采集由采音设备及其相关组件的各通道语音信号;
步骤S1C:,根据预设模型参数进行声学信息转换,提供预设的特征;
步骤S1D:根据转换的特征量化和分析,确定原声音信号有效的音量指标和声学数字特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州云嘉云计算有限公司,未经杭州云嘉云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111654488.6/2.html,转载请声明来源钻瓜专利网。