[发明专利]语音合成单元选择有效
申请号: | 201711049277.3 | 申请日: | 2017-10-31 |
公开(公告)号: | CN108573692B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | I.阿吉奥米尔詹纳基斯 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/06 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 单元 选择 | ||
提供方法、系统和装置,包括计算机程序。方法包括:接收指示用于语音合成的文本的数据;确定每个表示文本的相应部分的文本单元的包括至少第一文本单元、然后第二文本单元的序列;确定每个表示文本单元的序列的语音单元的多个路径,该确定包括:从语音单元语料库中选择包括表示第一文本单元的语音合成数据的第一语音单元;从该语料库中选择包括表示第二文本单元的语音合成数据的多个第二语音单元,基于串接第二语音单元与第一语音单元的联合成本和指示第二语音单元相应于第二文本单元的程度的目标成本来确定每个第二语音单元;以及定义从所选第一语音单元到第二语音单元的路径,以包括在语音单元的多个路径中;以及根据所选路径提供合成语音数据。
技术领域
本公开涉及数据处理,且更具体地涉及文本到语音系统、其计算机实现的方法和非暂时计算机存储介质。
背景技术
文本到语音(text-to-speech)系统可以合成用于可听地呈现给用户的文本数据。例如,文本到语音系统可以接收指示文本到语音系统应当生成文本消息或电子邮件的合成数据的指令。文本到语音系统可以向扬声器提供合成数据,以使来自文本消息或电子邮件的内容的可听地呈现给用户。
发明内容
在一些实施方式中,文本到语音系统使用单元选择处理来合成音频数据。文本到语音系统可以确定语音单元的序列,并串接语音单元以形成合成音频数据。作为单元选择处理的一部分,文本到语音系统创建包括要合成的每个言语元素的多个候选语音单元的格子(lattice)。创建格子包括从语音单元的大语料库中选择格子的候选语音单元的处理。为了确定哪个候选语音单元要包括在格子中,文本到语音系统可以使用目标成本和联合成本(join cost)两者。通常,目标成本指示特定语音单元有多准确地表示要合成的言语单元(phonetic unit)。联合成本可以指示特定语音单元的声学特性有多适合在格子中表示的一个或多个其他语音单元。通过使用联合成本来选择格子的候选语音单元,文本到语音系统可以生成包括表示更自然的发音合成语音的路径的格子。
文本到语音系统可以使用语音单元之间的距离、在当前选择的路径中的其他语音单元的声学参数、目标成本或它们的两个或更多的组合来选择要包括在格子中的语音单元。例如,文本到语音系统可以确定当前选择的路径中的一个或多个语音单元的声学参数。文本到语音系统可以使用所确定的声学参数和候选语音单元的声学参数、例如使用距离函数来确定联合成本,以将候选语音单元添加到一个或多个语音单元的当前选择的路径。在一些示例中,文本到语音系统可以使用语言参数确定将候选语音单元添加到当前选择的路径的目标成本。文本到语音系统可以确定候选语音单元包括语音合成数据的文本单元的语言参数,并且可以确定候选语音单元的语言参数。文本到语音系统可以使用语言参数来确定文本单元和候选语音单元之间的距离作为目标成本。文本到语音系统可以使用在表示语音单元的声学参数向量或语言参数向量之间的任何适当的距离函数。距离函数的一些示例包括概率、均方误差和Lp范数函数。
文本到语音系统可以确定路径(例如当前选择的路径和具有不同语音单元的其他路径)的总成本,作为相应路径中的语音单元的成本的组合。文本到语音系统可以比较多个不同路径的总成本以确定具有最佳成本的路径,例如最低成本或最高成本总路径。在一些示例中,总成本可能是联合成本或联合成本与目标成本的组合。文本到语音系统可以选择具有最佳成本的路径,并使用来自最佳成本路径的单元来生成合成语音。文本到语音系统可以例如通过将合成语音的数据提供给用户设备或者在扬声器上呈现合成语音,提供用于输出的合成语音。
文本到语音系统可以具有可以用于语音合成的语音单元的非常大的语料库。语音单元的非常大的语料库可以包括超过三十个小时的语音单元的数据,或者在一些实施方式中可以包括数百小时语音单元的数据。语音单元的一些示例包括双音素、音素、任何类型的语言原子,例如单词、音频块、或这些中的两个或更多的组合。语言原子、音频块或两者都可以是固定的或可变的大小。固定大小的音频块的一个例子是五毫秒音频帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711049277.3/2.html,转载请声明来源钻瓜专利网。