[发明专利]一种声音采集的方法、装置、设备和计算机存储介质有效
申请号: | 201910521230.5 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110289010B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 陈昌滨;卞衍尧 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L21/0264 | 分类号: | G10L21/0264;G10L21/0216;G10L25/60;G10L13/04 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声音 采集 方法 装置 设备 计算机 存储 介质 | ||
1.一种声音采集的方法,其特征在于,该方法包括:
声音采集装置播放预设的语音片段的同时,采集第一声音数据;
采集用户对所述语音片段的跟读声音数据;
利用声音干扰系数对所述跟读声音数据进行去干扰处理,得到第二声音数据,其中所述声音干扰系数是利用所述语音片段和所述第一声音数据确定的;
利用所述第二声音数据,得到用于语音合成的训练数据;
其中,利用所述语音片段和所述第一声音数据确定所述声音干扰系数包括:
将所述语音片段作为参考语音,对所述第一声音数据进行噪声和混响估算,得到所述第一声音数据的噪声系数和混响延迟系数;
利用声音干扰系数对所述跟读声音数据进行去干扰处理包括:
利用所述噪声系数和混响延迟系数,对所述跟读声音数据进行噪声抑制和混响调节。
2.根据权利要求1所述的方法,其特征在于,所述声音采集装置播放预设的语音片段包括:
声音采集功能启动后,所述声音采集装置自动播放预设的语音片段;或者,
声音采集功能启动后,若接收到用户触发播放的操作,则所述声音采集装置播放预设的语音片段。
3.根据权利要求1所述的方法,其特征在于,所述声音采集装置播放预设的语音片段的同时,还包括:
在与所述声音采集装置连接的有屏设备上显示所述语音片段对应的文字。
4.根据权利要求1所述的方法,其特征在于,在所述采集用户对所述语音片段的跟读声音数据之前,还包括:
所述声音采集装置通过提示音引导用户对所述语音片段进行跟读;或者,
在与所述声音采集装置连接的有屏设备上显示提示语或提示画面引导用户对所述语音片段进行跟读。
5.根据权利要求4所述的方法,其特征在于,在引导用户对所述语音片段进行跟读之前,还包括:
利用所述声音干扰系数判断当前采集环境是否符合预设要求,如果是,则继续执行所述引导用户对所述语音片段进行跟读;否则,提示用户更换采集环境。
6.根据权利要求1所述的方法,其特征在于,利用所述第二声音数据,得到用于语音合成的训练数据包括:
所述声音采集装置将所述第二声音数据作为用于语音合成的训练数据上传服务器;或者,
所述声音采集装置对所述第二声音数据进行质量评分,若质量评分结果满足预设要求,则将所述第二声音数据作为用于语音合成的训练数据上传服务器。
7.根据权利要求6所述的方法,其特征在于,若所述第二声音数据的质量评分结果不满足预设要求,则播放同一条预设的语音片段以重新进行声音采集;若所述第二声音数据的质量评分结果满足预设要求,则播放下一条预设的语音片段以继续进行声音采集。
8.一种声音采集的装置,其特征在于,该装置包括:
播放单元,用于播放预设的语音片段;
采集单元,用于播放所述预设的语音片段的同时,采集第一声音数据;以及采集用户对所述语音片段的跟读声音数据;
去干扰单元,用于将所述语音片段作为参考语音,对所述第一声音数据进行噪声和混响估算,得到所述第一声音数据的噪声系数和混响延迟系数;利用所述噪声系数和混响延迟系数,对所述跟读声音数据进行噪声抑制和混响调节,得到第二声音数据;
确定单元,用于利用所述第二声音数据,得到用于语音合成的训练数据。
9.根据权利要求8所述的装置,其特征在于,该装置还包括:
提示单元,用于在所述采集单元采集用户对所述语音片段的跟读声音数据之前,通过提示音引导用户对所述语音片段进行跟读;或者,在与所述声音采集装置连接的有屏设备上显示提示语或提示画面引导用户对所述语音片段进行跟读。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910521230.5/1.html,转载请声明来源钻瓜专利网。