[发明专利]声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法有效
| 申请号: | 201680085706.X | 申请日: | 2016-05-20 |
| 公开(公告)号: | CN109155128B | 公开(公告)日: | 2022-12-27 |
| 发明(设计)人: | 花泽利行 | 申请(专利权)人: | 三菱电机株式会社 |
| 主分类号: | G10L15/07 | 分类号: | G10L15/07 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 黄纶伟;孙明浩 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 声学 模型 学习 装置 学习方法 语音 识别 方法 | ||
1.一种声学模型学习装置,其特征在于,所述声学模型学习装置具有:
每个讲话者学习数据生成单元,其针对对多个讲话者的讲话数据进行分析而得到的特征向量,从每个讲话者的各所述特征向量中减去每个讲话者的全部所述特征向量的平均向量,生成每个讲话者的学习数据;
全部讲话者学习数据生成单元,其从全部讲话者的各所述特征向量中减去全部讲话者的全部所述特征向量的平均向量,生成全部讲话者的学习数据;以及
学习单元,其使用所述每个讲话者的学习数据和所述全部讲话者的学习数据来学习声学模型。
2.一种语音识别装置,其特征在于,所述语音识别装置具有:
分析单元,其对所输入的语音进行分析,输出第1特征向量;
校正单元,其判定所述语音是否是第1讲话,如果是第1讲话,则针对对多个讲话者的讲话数据进行分析而得到的第2特征向量,将全部讲话者的全部所述第2特征向量的平均向量作为校正向量,如果不是第1讲话,则将之前讲话为止的所述第1特征向量的平均向量作为校正向量,输出从所述第1特征向量中减去所述校正向量而得到的校正后向量;以及
核对单元,其对使用每个讲话者的学习数据和全部讲话者的学习数据而学习的声学模型与所述校正后向量进行核对,输出所述语音的识别结果,其中,所述每个讲话者的学习数据是使用从每个讲话者的所述第2特征向量中减去每个讲话者的全部所述第2特征向量的平均向量而生成的,所述全部讲话者的学习数据是从全部讲话者的所述第2特征向量中减去全部讲话者的全部所述第2特征向量的平均向量而生成的。
3.根据权利要求2所述的语音识别装置,其特征在于,
所述校正单元暂时存储所述校正向量,如果不是第1讲话,则对暂时存储的之前讲话为止的所述第1特征向量的平均向量和前一个讲话中使用的校正向量进行加权平均,作为校正向量。
4.一种声学模型学习装置的声学模型学习方法,该声学模型学习装置使用对多个讲话者的讲话数据进行分析而得到的特征向量来学习声学模型,其特征在于,所述声学模型学习方法具有以下步骤:
每个讲话者学习数据生成步骤,针对所述特征向量,从每个讲话者的所述特征向量中减去每个讲话者的全部所述特征向量的平均向量,生成每个讲话者的学习数据;
全部讲话者学习数据生成步骤,从全部讲话者的所述特征向量中减去全部讲话者的全部所述特征向量的平均向量,生成全部讲话者的学习数据;以及
学习步骤,使用所述每个讲话者的学习数据和所述全部讲话者的学习数据来学习声学模型。
5.一种语音识别装置的语音识别方法,该语音识别装置进行所输入的语音的语音识别,其特征在于,所述语音识别方法具有以下步骤:
分析步骤,对所输入的语音进行分析,输出第1特征向量;
校正步骤,判定所述语音是否是第1讲话,如果是第1讲话,则针对对多个讲话者的讲话数据进行分析而得到的第2特征向量,将全部讲话者的全部所述第2特征向量的平均向量作为校正向量,如果不是第1讲话,则将之前讲话为止的所述第1特征向量的平均向量作为校正向量,输出从所述第1特征向量中减去所述校正向量而得到的校正后向量;以及
核对步骤,对使用每个讲话者的学习数据和全部讲话者的学习数据而学习的声学模型与所述校正后向量进行核对,输出所述语音的识别结果,其中,所述每个讲话者的学习数据是使用从每个讲话者的所述第2特征向量中减去每个讲话者的全部所述第2特征向量的平均向量而生成的,所述全部讲话者的学习数据是从全部讲话者的所述第2特征向量中减去全部讲话者的全部所述第2特征向量的平均向量而生成的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680085706.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:超声传感器的接收操作
- 下一篇:语言程控系统





