[发明专利]一种音频提取方法、装置、设备和可读存储介质在审
申请号: | 202111328467.5 | 申请日: | 2021-11-10 |
公开(公告)号: | CN114038487A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 郭震;李智勇;陈孝良 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L17/02;G10L15/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 鲁梅 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 提取 方法 装置 设备 可读 存储 介质 | ||
本发明提供一种音频提取方法、装置、设备和可读存储介质,本发明提供的方案中,在处理待处理音频中,首先获取待处理音频的语音音频,然后再对获取到的语音音频进行断句,再识别断句后的语音音频是否是与注册音频相匹配的目标语音音频,最终,得到的目标语音音频为经过断句后的语音音频,该语音音频为具有断句的语音音频,能够识别出语句停顿,使得输出的语音音频更加符合用户说话规则。
技术领域
本发明涉及音频处理技术领域,具体涉及一种音频的音频提取方法、装置、设备和可读存储介质。
背景技术
音频处理是现有很多设备所具备的功能,其主要是在采集的语音信号流中分离出目标说话人的语音,该功能在语音信号处理的多种场景中均有应用需求,近年来也越来越收到人们的关注。例如,在一段电话对话、一场会议、一段广播语音或是一个电视节目等日常生活中的语音场景,对目标说话人语音进行提取。
在现有方案中,第目标对象的语音进行提取时,主要依赖于声纹识别模型。首先需要一段目标说话人音频做为注册音频。被测语音信息流首先通过VAD(语音活动检测)模块处理,检测出哪些帧是包含人声的,哪些帧是没有人声的(静音或背景音),从而将被测语音流分为若干段。接着对于这些语音段按一定的窗长、帧移做分帧处理,一般窗长1秒左右,帧移0.5秒左右,利用声纹识别模型与注册音频做声纹比对,得出每帧的得分。声纹模型对注册音频和每帧音频通过前向计算提取声纹特征,然后计算特征的余弦得分或PLDA(概率线性判别)得分等。得分越高代表两条语音属于同一说话人的可能性越大。最终将高于阈值的语音帧拼接起来即为分离结果。
现有方案受限于VAD性能及声纹识别最短判别时长,在说话人变更点处常常会舍弃较多目标说话人音频,导致切分后的句子末尾突然中断,听感不够自然。比如在说话人语速比较快或者交替说话停顿比较短的情况下,VAD常常判断不出句子停顿。
发明内容
有鉴于此,本发明实施例提供一种音频提取方法、装置、设备和可读存储介质,以实现提供一种能够识别出语句停顿的特定人音频的音频提取。
为实现上述目的,本发明实施例提供如下技术方案:
一种音频提取方法,包括:
获取待处理音频中的语音音频;
对所述语音音频进行句尾判断,得到至少一个完整语段;
对所述完整语段进行声纹识别,得到与注册音频相匹配的目标语音音频。
可选的,上述音频提取方法中,获取待处理音频中的语音音频,包括:
获取待处理音频;
对所述待处理音频中的音频类型进行分类;
识别得到分类结果中的语音音频。
可选的,上述音频提取方法中,对所述语音音频进行句尾判断,得到至少一个完整语段之后,还包括:
获取识别到的句尾对应的时间节点;
以所述时间节点为起始时间节点,所述语音音频进行句尾判断,得到至少一个完整语段。
可选的,上述音频提取方法中,对所述完整语段进行声纹识别,得到与注册音频相匹配的目标语音音频,包括:
获取注册音频的声纹特征;
提取所述完整语段的声纹特征;
判断所述完整语段的声纹特征与所述注册音频的声纹特征的相似度是否大于预设值,如果大于预设值,将所述完整语段作为目标语音音频;
否则,丢弃所述完整语段。
可选的,上述音频提取方法中,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111328467.5/2.html,转载请声明来源钻瓜专利网。