[发明专利]用于将文本转换为语音的电子装置和方法有效
| 申请号: | 201610902916.5 | 申请日: | 2016-10-17 |
| 公开(公告)号: | CN106611595B | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 成准植;赵乾佑;裴在撤;金光勋;高汉娜;裴索拉;尹银珠;赵洪一 | 申请(专利权)人: | 三星电子株式会社 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 曾世骁;苏银虹 |
| 地址: | 韩国京畿*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 文本 转换 语音 电子 装置 方法 | ||
一种用于将文本转换为语音的电子装置和方法。电子装置包括处理器和与处理器电连接的存储器。存储器存储超级群集型通用声学数据集和使处理器执行以下操作的指令:获取至少一个文本,选择与获取的文本被转换成的语音相关联的信息,当所选择的信息是第一信息时,选择第一路径中的至少一条第一路径,基于所选择的第一路径来加载所述超级群集型通用声学数据集中的元素,并基于所述超级群集型通用声学数据集中的所述元素来产生第一声学信号,当所选择的信息是第二信息时,选择第二路径中的至少一条第二路径,基于所述至少一条的第二路径来加载所述超级群集型通用声学数据集中的元素,并基于所述超级群集型通用数据集中的所述元素来产生第二声学信号。
技术领域
本公开涉及一种执行基于参数的文本到语音(TTS)的电子装置。更具体地,本公开涉及一种利用支持多语言/说话人的超级群集型通用声学数据集的使用所述超级群集型通用声学数据集来执行TTS转换的电子装置及其转换TTS的方法。
背景技术
基于参数的文本到语音(TTS)转换可具有语言处理器和针对每种语言的语音数据,基于输入句子的句子分析结果选择合适的语音数据,并基于其连接和转换产生合成声音。由于TTS转换不接收语音作为输入(如编解码器(CODEC)),而接收文本作为输入,因此可首先执行以下处理:估计适合于文本的语音数据并以声学模形的形式存储估计出的语音数据。基于参数的TTS可具有针对每种语言和每个说话人的声学模型,每个声学模型的大小大约为5MB。
在提供针对多语言的TTS商业服务的情况下,随着服务语言的数量和支持说话人的语言的数量的增加,针对某类语言或某类说话人的声学模型的语音数据随之增加,因此可能出现电子装置容量负担增加的问题。此外,基于决策树的声学模型可在音素单元被划分的细分音素单元中大量产生代表声学数据的叶节点,细分音素单元中的声学信号不易被人耳区分。在异质语言和说话人间可显著地出现具有相似形式的叶节点被大量产生的现象,这会导致在由语言和说话人划分并存储的声学模型本身包括高冗余的问题。
上述信息仅作为背景信息被呈现以帮助理解本公开。至于上述信息中的任何信息是否可用作针对本公开的现有技术,尚未做出决定,也未做出断定。
发明内容
本公开的多个方面在于至少解决上述问题和/或缺点并且至少提供以下描述的优点。因此,本公开的一方面提供用于将文本转换到语音(TTS)的方法和设备,所述方法和设备可配置由多语言/说话人共享的超级群集型通用声学数据(SCCAD),并通过基于支持多语言/说话人的超级群集型通用声学数据执行基于参数的TTS转换以大大降低容量。
根据本公开的一方面,提供了一种电子装置。所述电子装置包括:处理器;存储器,与处理器电连接,其中,存储器被配置为存储超级群集型通用声学数据集,其中,存储器还被配置为存储使处理器能够执行以下操作的指令:获取至少一个文本、选择与所获取的文本被转换成的语音相关联的信息,当所选择的信息是第一信息时,选择多条第一路径中的至少一条第一路径,基于所选择的至少一条第一路径来加载所述超级群集型通用声学数据集的至少一个元素,并基于加载的所述超级群集型通用声学数据集的所述至少一个元素来产生第一声学信号,当所选择的信息是第二信息时,选择多条第二路径中的至少一条第二路径,基于所选择的至少一条第二路径来加载所述超级群集型通用声学数据集的至少一个元素或至少一个其它元素,并基于加载的所述超级群集型通用声学数据集的所述至少一个元素或所述至少一个其它元素来产生第二声学信号。
根据本公开的另一方面,提供了一种电子装置。所述电子装置包括:处理器;存储器,与处理器电连接,其中,存储器被配置为存储使处理器能够执行以下操作的指令:获取与关于语音的第一信息相应的第一声学数据集和与关于所述语音的第二信息相应的第二声学数据集;确定第一声学数据集的至少一个元素和/或第二声学数据集的至少一个元素之间的相似度;基于所述被确定来产生与第一声学数据集的所述至少一个元素和/或第二声学数据集的所述至少一个元素相关联的超级群集型通用声学数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610902916.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:吉他指套
- 下一篇:模拟信息特征提取的基于时间的频率调谐





