[发明专利]用于训练声音识别模型数据库的方法和装置有效
申请号: | 201480025758.9 | 申请日: | 2014-04-23 |
公开(公告)号: | CN105580071B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 约翰·R·梅洛尼;约耳·A·克拉克;约瑟夫·C·德怀尔;阿德里安·舒斯特;斯内海特哈·辛加拉朱;罗伯特·A·茹雷克 | 申请(专利权)人: | 谷歌技术控股有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/20 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;穆德骏 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 声音 识别 模型 数据库 方法 装置 | ||
电子设备(102)将单个声音输入与一系列噪声样本中的每一个进行数字地组合。每个噪声样本是从不同音频环境(例如,街道噪声、杂音、车内噪声)得到的。声音输入/噪声样本组合被用于对VR模型数据库进行训练,而无需用户(104)必须在每个不同环境中重复声音输入。在一个变型中,电子设备(102)将用户的声音输入传送到维护并训练VR模型数据库(308)的服务器(301)。
技术领域
本公开涉及语音识别,并且更具体地说,涉及用于训练声音识别数据库的方法和设备。
背景技术
虽然语音识别已经存在了几十年,但是语音识别软件和硬件的质量最近才达到足以吸引大量消费者的足够高的水平。近年来语音识别已经变得非常流行的一个领域是智能电话和平板计算机行业。使用启用语音识别的设备,消费者可以仅使用声音命令来执行如拨打电话、写邮件、以及使用GPS导航这样的任务。
然而,这种设备中的语音识别远远不够完善。语音识别引擎典型地依赖于能够识别声音发声的音素或命令数据库。然而,用户可能需要“训练”音素或命令数据库以识别出他或她的语音特征——口音、经常发错音的词和音节、音调特征、节奏等等。然而,即使在训练之后,音素或命令数据库可能也不是在所有音频环境中都是准确的。例如,背景噪声的存在可降低语音识别准确性。
附图说明
虽然所附权利要求阐述了具有特殊性的本技术的特征,但是结合附图从后面的具体实施方式可以更好地理解这些技术,其中:
图1示出了对着在附图中被描绘为移动设备的电子设备说话的用户。
图2示出了图1的电子设备的示例组件。
图3示出了可以在其上实现各个实施例的架构。
图4-6示出了可以根据本公开的实施执行的步骤。
具体实施方式
本公开阐述了用于训练基于噪声的声音识别模型数据库的方法和装置。如这里所使用的术语“基于噪声的声音识别模型数据库”(简称为“VR模型数据库”)是指用作基于噪声的音素数据库、用作命令数据库、或者用作这两者的数据库。
本公开的各个实施例包括训练VR模型数据库的手动和自动方法。本公开的手动实施例包括直接训练方法,在该直接训练方法中电子设备(还被称为“设备”)指导用户以执行操作,响应于此,设备更新VR模型数据库。该设备可以在设备的初始设置期间或者在用户启动该过程的任何时间执行手动训练方法。例如,当用户处于新类型的噪声环境中时,用户可以启动手动方法以针对这种类型的噪声训练VR模型数据库,并且该设备可以将新噪声存储在噪声数据库中。
自动实施例包括由设备启动的方法而无需用户的知识。诸如当设备感测到新类型的噪声或者响应用户的动作时,该设备可以根据环境特性来启动自动方法。能够启动自动训练方法的用户动作示例包括用户经由按下按钮、手势触发、或者声音触发来启动语音识别会话。在这些情况下,设备将使用用户的语音以及它所检测到的其他噪声来进一步训练VR模型数据库。设备还可以使用用户的语音以及所检测到的噪声以用于语音识别处理本身。在这种情况下,如果设备积极地对语音识别结果做出反应(即与取消动作相反,执行语音识别处理所发起的动作),那么该设备将使用来自语音识别事件的用户发声以及该事件的结果作为训练目标来启动自动训练处理。
根据各个实施例,除了现场发声和现场噪声之外,该设备还使用先前记录的噪声以及先前记录的发声(分别从噪声数据库和发声数据库检索出)来训练VR模型数据库。与现场噪声和发声一样,可以在不同噪声环境中以及在设备的不同使用情况期间获得先前记录的发声。可以将先前记录的发声和噪声分别存储在噪声数据库和发声数据库中并且可以从噪声数据库和发声数据库检索出。另外,该设备可将现场发声和现场噪声分别存储在噪声数据库和发声数据库中以供将来使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌技术控股有限责任公司,未经谷歌技术控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480025758.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息记录介质以及再现装置
- 下一篇:增强从不同内容源获得的内容