[发明专利]语音合成方法和装置有效
| 申请号: | 202110336221.6 | 申请日: | 2021-03-29 |
| 公开(公告)号: | CN112951204B | 公开(公告)日: | 2023-06-13 |
| 发明(设计)人: | 杨惠;吴雨璇;梁光;周鼎皓;陈昌儒 | 申请(专利权)人: | 北京大米科技有限公司 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08 |
| 代理公司: | 北京睿派知识产权代理有限公司 11597 | 代理人: | 刘锋 |
| 地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 合成 方法 装置 | ||
本发明实施例公开了一种语音合成方法和装置,通过确定文本信息以及用于表征文本信息拼读方式的拼读规则,根据拼读规则确定文本信息对应的音素向量序列,其中素向量分别用于表征文本信息中对应的单词。以进一步根据音素向量序列进行语音合成,以确定对应的语音信息。本发明实施例可以通过文本信息的拼读规则直接确定音素向量序列进行语音合成,提高了语音合成效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音合成方法和装置。
背景技术
目前语音合成技术广泛应用在各个领域,现有的语音合成主要是合成字级别的音频,无法根据已有单词的音标和对应的拼读规则直接合成拼读的音频。因此,需要建立模型合成单词的音标对应的发音,若以音标为建模单元为基础,新模型花费时间成本较高。
发明内容
有鉴于此,本发明实施例提供一种语音合成方法和装置,旨在直接基于拼读规则进行语音合成,提高语音合成效率。
第一方面,本发明实施例提供了一种语音合成方法,所述方法包括:
确定文本信息;
确定所述文本信息对应的拼读规则,所述拼读规则用于表征所述文本信息的拼读方式;
根据所述拼读规则确定所述文本信息对应的音素向量序列,所述音素向量序列中各所述音素向量分别用于表征文本信息中对应的单词;
根据所述音素向量序列进行语音合成,以确定对应的语音信息。
进一步地,所述确定所述文本信息对应的拼读规则包括:
确定所述文本信息中各单词对应的至少一个音标;
根据各所述单词对应的至少一个音标和各所述音标的拼读顺序确定拼读规则。
进一步地,所述根据所述拼读规则确定所述文本信息对应的音素向量序列包括:
根据所述拼读规则确定所述文本信息对应的音标向量序列;
确定所述文本信息对应音素序列,所述音素序列中依次包括所述文本信息时间维度上各单词对应的音素;
根据所述音标向量序列和音素序列确定音素向量序列。
进一步地,所述根据所述拼读规则确定所述文本信息对应的音标向量序列包括:
根据所述拼读规则中各单词对应的至少一个音标和各音标的拼读顺序确定对应的音标向量;
根据各所述音标向量确定音标向量序列,各所述音标向量在所述音标向量序列中的位置根据对应单词在所述文本信息中的位置确定。
进一步地,所述根据所述音标向量序列和音素序列确定音素向量序列具体为:
基于最大匹配算法匹配所述音标向量序列和音素序列,以确定包括多个音素向量的音素向量序列,其中,所述音素向量序列中的各所述音素向量依次对应于所述音标向量序列中的各所述音标向量。
进一步地,所述根据所述音素向量序列进行语音合成,以确定对应的语音信息具体为:
将所述音素向量序列输入训练得到的语音合成模型,以输出对应的语音信息。
第二方面,本发明实施例提供了一种语音合成装置,所述装置包括:
第一信息确定模块,用于确定文本信息;
第二信息确定模块,用于确定所述文本信息对应的拼读规则;
序列确定模块,用于根据所述拼读规则确定所述文本信息对应的音素向量序列,所述音素向量序列中各所述音素向量分别用于表征文本信息中对应的单词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110336221.6/2.html,转载请声明来源钻瓜专利网。





