[发明专利]拼接语音音频的方法、装置以及存储介质在审

申请号：	201910913308.8	申请日：	2019-09-25
公开（公告）号：	CN112562637A	公开（公告）日：	2021-03-26
发明（设计）人：	黄磊;杨春勇;权圣	申请（专利权）人：	北京中关村科金技术有限公司
主分类号：	G10L13/033	分类号：	G10L13/033
代理公司：	北京万思博知识产权代理有限公司 11694	代理人：	刘冀
地址：	100000 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	拼接语音音频方法装置以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种拼接语音音频的方法，其特征在于，包括：

获取用于拼接的第一语音音频和第二语音音频；

生成过渡音频，所述过渡音频用于衔接所述第一语音音频和所述第二语音音频；以及

将所述过渡音频插入到所述第一语音音频和所述第二语音音频之间，并且将所述第一语音音频、所述过渡音频以及所述第二语音音频进行拼接，生成拼接语音音频。

2.根据权利要求1所述的方法，其特征在于，生成过渡音频的操作，包括：

获取与所述第一语音音频对应的第一文本以及与所述第二语音音频对应的第二文本；以及

利用预先训练的将文本转换为语音的转换模型，根据所述第一文本和所述第二文本，生成所述过渡音频。

3.根据权利要求2所述的方法，其特征在于，利用预先训练的将文本转换为语音的转换模型，根据所述第一文本和所述第二文本，生成所述过渡音频的操作，包括：

确定所述第一文本的尾字以及所述第二文本的首字；以及

利用所述转换模型，根据所述尾字和所述首字，生成所述过渡音频。

4.根据权利要求3所述的方法，其特征在于，利用所述转换模型，根据所述尾字和所述首字，生成所述过渡音频的操作，包括：

利用预先训练的Tacotron模型，根据所述尾字和所述首字，生成所述过渡音频。

5.根据权利要求4所述的方法，其特征在于，还包括：

根据预先设置的语音音频样本，确定所述尾字和所述首字的发音的基频变化率；以及

根据所述基频变化率对所述过渡音频进行修正。

6.根据权利要求5所述的方法，其特征在于，确定所述尾字和所述首字的发音的基频变化率的操作，包括：根据所述尾字的韵母以及所述首字的声母，确定所述基频变化率。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至6中任意一项所述的方法。

8.一种拼接语音音频的装置，其特征在于，包括：

获取模块，用于获取用于拼接的第一语音音频和第二语音音频；

生成模块，用于生成过渡音频，所述过渡音频用于衔接所述第一语音音频和所述第二语音音频；以及

拼接模块，用于将所述过渡音频插入到所述第一语音音频和所述第二语音音频之间，并且将所述第一语音音频、所述过渡音频以及所述第二语音音频进行拼接，生成拼接语音音频。

9.根据权利要求8所述的装置，其特征在于，所述生成模块，包括：

获取子模块，用于获取与所述第一语音音频对应的第一文本以及与所述第二语音音频对应的第二文本；以及

生成子模块，用于利用预先训练的将文本转换为语音的转换模型，根据所述第一文本和所述第二文本，生成所述过渡音频。

10.一种拼接语音音频的装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

获取用于拼接的第一语音音频和第二语音音频；

生成过渡音频，所述过渡音频用于衔接所述第一语音音频和所述第二语音音频；以及

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京中关村科金技术有限公司，未经北京中关村科金技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910913308.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载