[发明专利]音频处理方法和装置、电子设备及可读存储介质在审
| 申请号: | 202111302400.4 | 申请日: | 2021-11-04 |
| 公开(公告)号: | CN114067793A | 公开(公告)日: | 2022-02-18 |
| 发明(设计)人: | 赵情恩 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/02;G10L15/16;G10L21/0272;G10L21/0308;G10L25/30 |
| 代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 宫传芝 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频 处理 方法 装置 电子设备 可读 存储 介质 | ||
本公开提供了一种音频处理方法和装置、电子设备及可读存储介质,涉及语音处理技术领域,尤其涉及人工智能、语音技术、深度学习领域。具体实现方案为:获取待处理音频,其中,待处理音频包括:从多个声源采集到的初始音频数据,多个声源对应于多个对象;对待处理音频进行内容识别,得到内容向量和内容向量对应的时间信息;基于内容向量和时间信息对待处理音频进行分离,得到分离结果,其中,分离结果用于从初始音频数据中确定多个对象中每个对象分别对应的目标音频数据。通过上述实现方案,本公开达到了提高分离结果的准确性,增加整体特征的可区分性的效果,解决了相关技术中提供的人声分离方法的分离效果较差的问题。
技术领域
本公开涉及语音处理技术领域,尤其涉及人工智能、语音技术、深度学习领域。本公开提供了一种音频处理方法和装置、电子设备及可读存储介质。
背景技术
在智能客服、会议讨论、访谈对话等场景中,单个声道上往往会采集到多个用户发出的声音,因此,需要对录制的音频进行人声分离,然后针对不同用户的声音进行针对性的分析处理。目前,可以通过离线的人声分离方法对采集到的音频进行分离,首先将音频切割成等长小片段,然后给定音频里面的说话人个数,或者阈值进行分离。但是,如果采集到的多个用户的声音出现重叠,则分离效果较差。
发明内容
本公开提供了一种音频处理方法和装置、电子设备及可读存储介质。
根据本公开的第一方面,提供了一种音频处理方法,包括:获取待处理音频,其中,待处理音频包括:从多个声源采集到的初始音频数据,多个声源对应于多个对象;对待处理音频进行内容识别,得到内容向量和内容向量对应的时间信息;基于内容向量和时间信息对待处理音频进行分离,得到分离结果,其中,分离结果用于从初始音频数据中确定多个对象中每个对象分别对应的目标音频数据。
根据本公开的第二方面,提供了一种音频处理装置,包括:获取模块,用于获取待处理音频,其中,待处理音频包括:从多个声源采集到的初始音频数据,多个声源对应于多个对象;识别模块,用于对待处理音频进行内容识别,得到内容向量和内容向量对应的时间信息;分离模块,用于基于内容向量和时间信息对待处理音频进行分离,得到分离结果,其中,分离结果用于从初始音频数据中确定多个对象中每个对象分别对应的目标音频数据。
根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据上述确定的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行根据上述确定的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据上述确定的方法。
通过本公开上述实施例,在获取到待处理音频之后,可以通过对待处理音频进行内容识别,得到内容向量和时间信息,并结合内容向量和时间信息对待处理音频进行分离,实现人声分离的目的。容易注意到的是,由于人声分离的过程中同时结合了内容向量和时间信息,因此切割后的音频片段中可以保留完整的内容信息,使得该音频片段对应的特征向量更具有区分性,从而达到了提高分离结果的准确性,增加整体特征的可区分性的效果,解决了相关技术中提供的人声分离方法的分离效果较差的问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的音频处理方法的流程图;
图2是根据本公开的音频分离模型和辅助分离模型的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111302400.4/2.html,转载请声明来源钻瓜专利网。





