[发明专利]语音合成方法、装置和计算机可读存储介质有效

申请号：	202010071427.6	申请日：	2020-01-21
公开（公告）号：	CN111276120B	公开（公告）日：	2022-08-19
发明（设计）人：	邓利群;张旸;郑念祖;王雅圣	申请（专利权）人：	华为技术有限公司
主分类号：	G10L13/027	分类号：	G10L13/027;G10L13/04
代理公司：	北京龙双利达知识产权代理有限公司 11329	代理人：	王龙华;王君
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种语音合成的方法、装置和计算机可读存储介质，涉及人工智能领域，具体涉及语音识别领域中的一种语音合成技术。该方法包括：获取第一用户的待处理数据，通过目标模型对待处理数据进行处理，获得第一数据，其中，目标模型是基于第一用户的个性化训练数据对基础声学模型的第一子模型训练后得到的，向数据处理设备发送第一数据，以及接收处理结果，该处理结果是数据处理设备基于基础声学模型的第二子模型对第一数据进行处理获得的。本申请通过终端和数据处理设备相结合的数据处理的方法，降低了对数据处理设备存储模型和运算能力的要求，从而大大降低个性化语音合成的部署和实现成本。

技术领域

本申请涉及人工智能领域，具体涉及语音识别领域中的一种语音合成技术，并且更具体地，涉及一种语音合成方法、装置和计算机可读存储介质。

背景技术

近年来，语音合成技术取得了极大进步，机器语音播报在智能移动终端、智能家居、车载音响等设备上得以广泛应用。人们对语音合成的要求也不再仅仅是“能听清”，而是转变成“表达力强”、“富有个性化”等。因此，语音合成的个性化功能已逐渐成为诸多产品的所宣称的“黑科技”，成为产品竞争力的亮点。个性化语音合成(text to speech,TTS)系统，即融合用户个性化定制的特征的语音合成系统，其中用户个性化特征不限于声音音色，说话韵律、情感等。以复刻用户声音音色的个性化TTS为例，其也可称为“声音克隆”，其允许用户只提供少量自己的文本和语音数据便能构建一个该用户的声音模型，进而能听到合成的“自己的声音”。

但是，由于个性化TTS本身的特点，例如，个性化TTS需要为每个用户建立其声学模型，假如某个产品有百万用户，就需要提供该百万用户所对应的百万个不同的声学模型，庞大数量的模型的存储需要占用很大的存储空间，当利用服务器等处理设备进行语音合成时，对其配置和运算能力都有很高的要求，大大增加了声学模型的部署成本，同时也增加了实际应用的困难。

发明内容

本申请提供一种语音合成方法、装置和计算机可读存储介质，能够降低个性化语音合成的实现成本。

第一方面，提供了一种语音合成方法，该方法包括：获取第一用户的待处理数据，通过目标模型对待处理数据进行处理，获得第一数据，其中，目标模型是基于第一用户的个性化训练数据对基础声学模型的第一子模型训练后得到的，向数据处理设备发送第一数据，以及接收处理结果，该处理结果是数据处理设备基于基础声学模型的第二子模型对第一数据进行处理获得的。

在本申请技术方案中，通过终端和数据处理设备相结合的数据处理的方法，降低了对数据处理设备存储模型和运算能力的要求，从而大大降低个性化语音合成的部署和实现成本。首先，在进行声学模型的部署时，数据处理设备中只需要部署通用声学子模型(对应于上述第二子模型)，而个性化声学子模型(对应于上述目标模型)可以分散部署在用户自己的终端设备中，使得数据处理设备不需要存储庞大数量的声学模型，且用户不需要担心自己的个性化声学模型被长期存放在通用平台上的隐私问题。其次，在语音合成过程中，用户的待处理数据可以先在本地终端设备进行处理，而不需要将个性化语音、语料等数据上传到数据处理设备，在一定程度上同样保护了用户的隐私。再次，在语音合成过程中，对于用户的个性化部分的处理由终端设备执行，同样降低了数据处理设备的运算需求，从而降低成本。

可选地，可以是获取第一用户的待处理数据，该待处理数据例如可以是个性化语音合成请求。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010071427.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成方法、装置和计算机可读存储介质有效

专利文献下载