[发明专利]一种声音采集的方法、装置、设备和计算机存储介质有效

申请号：	201910521230.5	申请日：	2019-06-17
公开（公告）号：	CN110289010B	公开（公告）日：	2020-10-30
发明（设计）人：	陈昌滨;卞衍尧	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L21/0264	分类号：	G10L21/0264;G10L21/0216;G10L25/60;G10L13/04
代理公司：	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人：	田宏宾
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种声音采集方法装置设备计算机存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种声音采集的方法、装置、设备和计算机存储介质，其中方法包括：声音采集装置播放预设的语音片段的同时，采集第一声音数据；采集用户对所述语音片段的跟读声音数据；利用声音干扰系数对所述跟读声音数据进行去干扰处理，得到第二声音数据，其中所述声音干扰系数是利用所述语音片段和所述第一声音数据确定的；利用所述第二声音数据，得到用于语音合成的训练数据。通过本发明提供的方式能够提高采集的声音数据的质量。

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种声音采集的方法、装置、设备和计算机存储介质。

【背景技术】

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。

随着人工智能技术的迅速发展，越来越多的具有语音交互功能的智能设备问世，例如智能音箱、智能电视、智能遥控等。伴随着用户个性化需求的增多，很多用户希望能够在智能设备上使用自己熟悉或喜欢的声音用于交互。例如，用户希望在与智能音箱进行语音交互时，智能音箱使用的是自己孩子的声音，或者自己的声音。这就需要预先利用智能设备采集声音数据，然后利用采集的声音数据进行模型训练，以合成个性化的声音。

现有的声音采集方式是在智能设备的屏幕上显示需要用户朗读的文本，用户点击录音按钮后，按照屏幕上的文本逐字朗读，智能设备录制用户朗读的声音数据并上传至服务器。然而现有的声音采集方式对于不识字等存在阅读障碍的用户并不适用。并且对于具有不同朗读习惯的用户，会造成采集的声音数据中对同一段文字的朗读节奏、情感、快慢等存在较大偏差，给后续模型训练造成困难。另外，为了保证看清屏幕上文字的情况下，需要与终端保持一定距离，没有拢音设备的情况下，会造成采集的声音存在较大噪声和混响等干扰。因此，现有的声音采集方式采集的声音数据质量低下。

【发明内容】

有鉴于此，本发明提供了一种声音采集的方法、装置、设备和计算机存储介质，以便于提高采集的声音数据的质量。

具体技术方案如下：

第一方面，本发明提供了一种声音采集的方法，该方法包括：

声音采集装置播放预设的语音片段的同时，采集第一声音数据；

采集用户对所述语音片段的跟读声音数据；

利用声音干扰系数对所述跟读声音数据进行去干扰处理，得到第二声音数据，其中所述声音干扰系数是利用所述语音片段和所述第一声音数据确定的；

利用所述第二声音数据，得到用于语音合成的训练数据。

根据本发明一优选实施方式，所述声音采集装置播放预设的语音片段包括：

声音采集功能启动后，所述声音采集装置自动播放预设的语音片段；或者，

声音采集功能启动后，若接收到用户触发播放的操作，则所述声音采集装置播放预设的语音片段。

根据本发明一优选实施方式，所述声音采集装置播放预设的语音片段的同时，还包括：