[发明专利]一种语音切分的方法、装置、设备和计算机存储介质有效
| 申请号: | 201810816633.8 | 申请日: | 2018-07-24 |
| 公开(公告)号: | CN109166570B | 公开(公告)日: | 2019-11-26 |
| 发明(设计)人: | 孙建伟 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/05;G10L25/51;G10L25/87 |
| 代理公司: | 11412 北京鸿德海业知识产权代理事务所(普通合伙) | 代理人: | 袁媛<国际申请>=<国际公布>=<进入国 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 时间标签 语音段 校准 计算机存储介质 互相关 对齐 拼接 录制 | ||
1.一种语音切分的方法,其特征在于,该方法包括:
确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;
基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;
利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
对两个以上的第一语音段进行排序后,拼接成所述第一语音;
对各第一语音段在第一语音中的开始时间和结束时间进行标记,生成所述时间标签;
对所述第一语音进行录制,得到所述第二语音。
3.根据权利要求2所述的方法,其特征在于,该方法还包括:
切除录制得到的所述第二语音中开始位置的静音段。
4.根据权利要求3所述的方法,其特征在于,切除所述第二语音中开始位置的静音段包括:
利用语音活动检测VAD模型对所述第二语音进行语音端点检测,将首个语音端点之前的各静音帧切除。
5.根据权利要求1所述的方法,其特征在于,所述确定第一语音与第二语音的互相关度包括:
从所述第一语音和第二语音中截取对应相同第一时段的语音;
将从第一语音中截取的语音和从第二语音中截取的语音进行互相关度计算。
6.根据权利要求1所述的方法,其特征在于,基于所述互相关度对时间标签进行校准包括:
基于所述互相关度确定所述第二语音的开始时间;
利用确定出的所述第二语音的开始时间对时间标签进行校准。
7.根据权利要求6所述的方法,其特征在于,基于所述互相关度确定所述第二语音的开始时间包括:
利用所述互相关度中最大值对应的时间位置,以及参与该互相关度计算的第二语音的长度,确定所述第二语音的开始时间。
8.根据权利要求6所述的方法,其特征在于,利用确定出的所述第二语音的开始位置对时间标签进行校准包括:
利用时间标签中各时间与确定出的所述第二语音的开始位置的差值,得到校准后时间标签中对应的各时间,所述时间标签中各时间包括各第一语音段的开始时间和结束时间。
9.根据权利要求1所述的方法,其特征在于,预先将所述第二语音切分为N段子语音,所述N为1以上的正整数;
针对所述N段子语音,分别执行所述语音切分的方法。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述第一语音段为近场短语音数据;
所述第二语音段为远场短语音数据,作为远场声学模型的训练数据。
11.一种语音切分的装置,其特征在于,该装置包括:
确定单元,用于确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;
校准单元,用于基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;
切分单元,用于利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。
12.根据权利要求11所述的装置,其特征在于,该装置还包括:
拼接单元,用于对两个以上的第一语音段进行排序后,拼接成所述第一语音;
标记单元,用于对各第一语音段在第一语音中的开始时间和结束时间进行标记,生成所述时间标签;
录制单元,用于对所述第一语音进行录制,得到所述第二语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810816633.8/1.html,转载请声明来源钻瓜专利网。





