[发明专利]一种语音切分的方法、装置、设备和计算机存储介质有效
| 申请号: | 201810816633.8 | 申请日: | 2018-07-24 |
| 公开(公告)号: | CN109166570B | 公开(公告)日: | 2019-11-26 |
| 发明(设计)人: | 孙建伟 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/05;G10L25/51;G10L25/87 |
| 代理公司: | 11412 北京鸿德海业知识产权代理事务所(普通合伙) | 代理人: | 袁媛<国际申请>=<国际公布>=<进入国 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 时间标签 语音段 校准 计算机存储介质 互相关 对齐 拼接 录制 | ||
本发明提供了一种语音切分的方法、装置、设备和计算机存储介质,其中方法包括:确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。本发明能够使得校准后的时间标签与第二语音更好地对齐,从而提高对第二语音的切分准确性。
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种语音切分的方法、装置、设备和计算机存储介质。
【背景技术】
随着人工智能技术的飞速发展,语音技术因其便捷、无障碍的交互方式,使其成为人工智能交互的主要方式。在近场语音识别技术逐步成熟的前提下,远场语音识别逐渐成为关注的课题。通过远场语音识别,用户能够在较远距离与智能设备进行语音交互,例如与智能电视、智能音箱等进行语音交互。
远场语音识别是通过远场声学模型实现的,在训练远场声学模型时需要大量的远场语音数据。而现阶段,远场语音产品的真实数据较少,无法满足远场声学模型的训练需求。而近场语音数据的数量较多,因此目前采用的方式是通过对近场语音数据进行重新录制的方式获得远场语音数据。具体地,将多个近场语音段按照一定的顺序拼接成长语音,进行重新录制后得到远场的长语音;然后对远场的长语音进行切分,从而得到多个语音段以供训练远场声学模型使用。其中在对远场的长语音进行切分时,目前采用的方式是基于时间标签的长语音切分方式。其中时间标签是在拼接形成长语音时,各近场语音段在长语音中的起止时间。
然而,由于录制设备存在时钟频率不稳定的问题,因此基于时间标签的长语音切分方式会造成切分不准确的问题,例如切分后得到的语音段存在截断,从而进一步导致得到的远场语音数据不符合训练要求。
【发明内容】
有鉴于此,本发明提供了一种语音切分的方法、装置、设备和计算机存储介质,以便于提高对录制语音的切分准确性。
具体技术方案如下:
本发明提供了一种语音切分的方法,该方法包括:
确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;
基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;
利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。
根据本发明一优选实施方式,该方法还包括:
对两个以上的第一语音段进行排序后,拼接成所述第一语音;
对各第一语音段在第一语音中的开始时间和结束时间进行标记,生成所述时间标签;
对所述第一语音进行录制,得到所述第二语音。
根据本发明一优选实施方式,该方法还包括:
切除录制得到的所述第二语音中开始位置的静音段。
根据本发明一优选实施方式,切除所述第二语音中开始位置的静音段包括:
利用语音活动检测VAD模型对所述第二语音进行语音端点检测,将首个语音端点之前的各静音帧切除。
根据本发明一优选实施方式,所述确定第一语音与第二语音的互相关度包括:
从所述第一语音和第二语音中截取对应相同第一时段的语音;
将从第一语音中截取的语音和从第二语音中截取的语音进行互相关度计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810816633.8/2.html,转载请声明来源钻瓜专利网。





