[发明专利]用于构建多语言声学模型的设备和方法在审

申请号：	201310603916.1	申请日：	2013-11-25
公开（公告）号：	CN103839545A	公开（公告）日：	2014-06-04
发明（设计）人：	金南勋;彼得·莫特里赛克;菲利浦·N·加纳;大卫·易米森;李在原;曹贞美	申请（专利权）人：	三星电子株式会社;戴尔莫尔感知人工智能研究所
主分类号：	G10L15/06	分类号：	G10L15/06
代理公司：	北京铭硕知识产权代理有限公司 11286	代理人：	韩明星;李柱天
地址：	韩国京畿***	国省代码：	韩国;KR
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于构建语言声学模型设备方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请要求于2012年11月23日在美国专利商标局提交的61/729,447号美国临时申请以及于2013年9月26日在韩国知识产权局提交的10-2013-0114397号韩国专利申请的优先权，该申请的公开通过引用合并于此。

技术领域

与示例性实施例一致的设备和方法涉及构建多语言声学模型，更具体地说，涉及构建反映多种语言以及体现语言的地区特点的方言的多语言声学模型。

背景技术

各种类型的电子装置（诸如智能电话和智能电视）可提供语音识别功能。例如，利用基于统计学的技术的声学模型可用于语音识别。

然而，由于每个国家或地区具有不同的语言特点，单个声学模型可能无法覆盖针对每个国家或地区中建立的所有语言和语言特点的语音识别。因此，语音识别技术可使用针对每个语言的不同的声学模型以提供语音识别的功能。

一种构建用于语音识别的声学模型的方法是确保每种语言具有充足的数据。对于许多人使用的语言（诸如英语、汉语、意大利语、德语和西班牙语），可能更容易获得充足的数据，然而对于少数人使用的语言或者难以接触的语言，可能难以获得充足的数据。

因此，可使用基于隐马尔可夫模型（HMM）/高斯混合模型（GMM）的自适应技术来构建用于多种语言或方言的声学模型。具体地说，可使用存在充足的数据的语言的数据来构建种子声学模型。可使用适应于将被构建的语言的声学模型的基于HMM/GMM的自适应技术来构建种子声学模型。

然而，当使用这种方法来基于HMM/GMM构建用于多种语言和方言的声学模型时，用于自适应技术的语言必须具有相同的音素级单位。例如，为了获得英式英语声学模型，美式英语声学模型可被用作训练声学模型，而韩语声学模型可能不能被使用。另外，当使用该方法来基于HMM/GMM构建用于多种语言和方言的声学模型时，为了提高语音识别性能，需要针对目标语言的大量数据来获得声学模型。

发明内容

示例性实施例可克服上述缺点和上面没有描述的其它缺点。此外，示例性实施例无需克服上述缺点，示例性实施例可不克服上述的任何问题。

根据示例性实施例，提供了一种用于构建多语言声学模型的方法，所述方法包括：将输入特征划分为共同语言部分和区别语言部分，通过使用神经网络训练划分的共同语言部分和区别语言部分以估计和去除音素之间的相关性，来获得串联特征；将使用串联特征构建的初始声学模型的参数划分为共同语言参数和区别语言参数，使用训练语言的数据适应于共同语言参数，使用目标语言的数据适应于区别语言参数，并使用适应的共同语言参数和适应的区别语言参数来构建针对目标语言的声学模型。

划分输入特征的步骤可包括将目标语言的输入特征划分为共同语言部分和区别语言部分。获得串联特征的步骤可包括使用神经网络训练划分的共同语言部分和区别语言部分，通过将经由训练而输出的共同语言部分和区别语言部分组合，来获得串联特征。

训练的步骤可包括：使用神经网络估计共同语言部分和区别语言部分的音素的后验概率值；去除音素之间的相关性。

在估计的步骤中，可使用多层感知器（MLP）模型来估计训练语言的音素的后验概率值，在去除的步骤中，使用主成分分析（PCA）步骤来去除音素之间的相关性。

可使用训练语言数据基于神经网络训练共同语言部分，可使用目标语言数据基于神经网络训练区别语言部分。

构建的步骤可包括：通过针对获得的串联特征执行子空间高斯混合模型（SGMM）训练来构建SGMM声学模型；将SGMM声学模型的参数划分为共同语言参数和区别语言参数；使用训练语言数据适应于共同语言参数，使用目标语言数据适应于区别语言参数；通过将使用训练语言而适应的共同语言参数和使用目标语言而适应的区别语言参数组合，来构建针对目标语言的声学模型。

可使用最大似然线性回归（MLLR）算法和最大后验（MAP）算法中的至少一个来执行自适应。

训练语言的数据量可大于目标语言的数据量。

根据另一示例性实施例的一方面，提供了一种多语言声学模型构建设备，包括：串联特征获得器，被配置为将目标语言的输入特征划分为共同语言部分和区别语言部分，通过使用神经网络训练划分的共同语言部分和区别语言部分来获得串联特征；声学模型训练器，被配置为将使用串联特征构建的初始声学模型的参数划分为共同语言参数和区别语言参数，使用训练语言的数据适应于共同语言参数，使用目标语言的数据适应于区别语言参数，并使用适应的共同语言参数和适应的区别语言参数来构建针对目标语言的声学模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于三星电子株式会社;戴尔莫尔感知人工智能研究所，未经三星电子株式会社;戴尔莫尔感知人工智能研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310603916.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于构建多语言声学模型的设备和方法在审

专利文献下载