[发明专利]用于识别被输入的语音的重音的系统和方法有效

申请号：	200710186763.X	申请日：	2007-11-16
公开（公告）号：	CN101192404A	公开（公告）日：	2008-06-04
发明（设计）人：	立花隆辉;长野彻;西村雅史;仓田岳人	申请（专利权）人：	国际商业机器公司
主分类号：	G10L13/00	分类号：	G10L13/00;G10L13/08;G10L15/00
代理公司：	北京市柳沈律师事务所	代理人：	黄小临
地址：	美国纽***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于识别输入语音重音系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别技术。具体上，本发明涉及用于识别被输入的语音的重音的技术。

背景技术

近些年来，已经关注语音合成，用于使用自然的发音读出输入的文本，而不要求诸如文本的读出的伴随信息。在这种语音合成技术中，为了产生听者听起来自然的声音，重要的是，不仅精确地再现字的发音，而且精确地再现其重音。如果可以通过精确地再现构成字的每个短音节较高H类型或者较低L类型的发音来合成语音，则有可能使得结果产生的语音对于听者听起来自然。

大多数当前使用的语音合成系统是通过统计培训所述系统而构成的系统。为了统计地培训精确地再现重音的语音合成系统，需要大量的培训数据，其中，由人读出的文本的语音数据与在发出语音中使用的重音相关联。传统上，通过使得人收听语音和分配重音类型来构成这样的培训数据。为此，难于准备大量的培训数据。

与此相反，如果可以通过读出文本的语音数据来自动识别重音类型，则可以容易地准备大量的培训数据。但是，因为重音在本性上是相对的，因此难于根据诸如语音偏离之类的数据来产生培训数据。事实上，虽然尝试了基于这样的语音数据的重音的自动识别(参见Kikuo Emoto，Heiga Zen，KeiichiTokuda，and Tadashi Kitamura“Accent Type Recognition for Automatic ProsodicLabeling，”Proc.of Autumn Meeting of the Acoustical Society of Japan(September，2003)(Kikuo Emoto、Heiga Zen、Keiichi Tokuda和TadashiKitamura，“用于自动韵律标记的语音类型识别”，日本声学协会的秋季会议(2003年9月)))，但是精度不足够满意来使得该识别投入实用。

发明内容

针对此背景，本发明的目的是提供一种能够解决上述问题的系统、方法和程序。通过在权利要求的范围内的独立权利要求中所述特征的组合来实现这个目的。另外，从属权利要求限定了本发明的其他有益的具体示例。

为了解决上述的问题，本发明的一个方面是一种识别被输入语音的重音的系统，所述系统包括存储单元、第一计算单元和韵律词组搜索单元。具体上，所述存储单元在其中存储：培训用语数据，用于指示在培训文本中的每个字的用语；培训语音数据，用于指示在培训语音中的每个字的语音的特征；以及，培训边界数据，用于指示是否每个字是韵律词组的边界。另外，第一计算单元接收边界数据的候选者(以下称为边界数据候选者)的输入，所述边界数据用于指示是否在输入语音中的每个字是韵律词组的边界，然后，所述第一计算单元根据输入的用语数据、培训用语数据和培训边界数据，计算在输入文本中的字的韵律词组的边界的每个与输入的边界数据候选者之一一致的第一概率，所述输入用语数据用于指示在输入文本中的每个字的用语，所述输入文本用于指示输入语音的内容。随后，第二计算单元接收边界数据候选者的输入，并且根据输入语音数据、培训语音数据和培训边界数据，计算第二概率，所述第二概率是在输入语音具有由边界数据候选者的任何一个指定的韵律词组的边界的情况下，在输入文本中的每个字的语音与由输入语音数据指定的语音一致的概率，所述输入语音数据用于指示在输入语音中的每个字的语音的特征。而且，韵律词组搜索单元从输入边界数据候选者中搜索最大化第一和第二概率的乘积的一个边界数据候选者，然后输出被搜索出的边界数据候选者来作为用于将输入文本划分为韵律词组的边界数据。另外，也提供了一种用于通过这个系统而识别重音的方法和一种用于使得信息处理系统能够作为这个系统的程序。

注意，上述的发明内容未列出本发明的全部必要特征，并且在本发明中也包括了这些特征的分组的子组合。

附图说明

为了更全面地明白本发明及其优点，现在参见结合附图而进行的下面的说明。

图1示出了识别系统10的整体配置。

图2示出了输入文本15和培训用语数据200的配置的具体示例。

图3示出了在存储单元20中存储的各种数据的一个示例。

图4示出了重音识别单元40的功能配置。

图5示出了其中重音识别单元40识别重音的处理的流程图。

图6示出了由重音识别单元40在重音边界的识别中使用的判定树的一个示例。

图7示出了当说出字(word)时的时间附近的所述字的基本频率的一个示例，所述字变为韵律词组边界(prosodic phrase boundary)的候选者。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载