[发明专利]用于自动语音识别的场境去规范化在审
| 申请号: | 201980058744.X | 申请日: | 2019-09-03 |
| 公开(公告)号: | CN112673424A | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 阿萨夫·赫维茨·迈克立;彼塔尔·阿列克西克;佩德罗·莫雷诺 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/22;G06F40/253;G06F40/166;G06F40/151 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;任庆威 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 自动 语音 识别 场境去 规范化 | ||
1.一种方法(600),包括:
在自动语音识别ASR模块(300)的数据处理硬件(710)处,从用户接收语音输入(104),所述ASR模块(300)包括要应用于对由所述ASR模块(300)生成的规范化文本进行去规范化的去规范化器(350)的预定义集合;
由所述数据处理硬件(710)获得与所述语音输入(104)相关联的场境元数据(110);
由所述数据处理硬件(710)生成与所述语音输入(104)相对应的原始语音识别结果(312),所生成的原始语音识别结果(312)包括规范化文本;
由所述数据处理硬件(710)基于与所述语音输入(104)相关联的所述场境元数据(110)来选择要应用于所生成的原始语音识别结果(312)的一个或多个去规范化器(352)的列表;以及
由所述数据处理硬件(710)通过将所述一个或多个去规范化器(352)的所述列表依次应用于所生成的原始语音识别结果(312)来将所生成的原始语音识别结果(312)去规范化成去规范化文本(322)。
2.根据权利要求1所述的方法(600),其中:
接收所述语音输入(104)包括从与所述用户相关联的用户设备(200)接收与所述语音输入(104)相对应的音频数据(103);并且
获得与所述语音输入(104)相关联的所述场境元数据(110)包括当接收到所述语音输入(104)的所述音频数据(103)时从所述用户设备(200)接收与所述语音输入(104)相关联的所述场境元数据(110)。
3.根据权利要求1或2所述的方法(600),其中,获得与所述语音输入(104)相关联的所述场境元数据(110)包括:
当接收到所述语音输入(104)时接收与所述用户相关联的用户标识符(12);以及
使用所述用户标识符(12)来从与所述数据处理硬件(710)通信的存储器硬件(146、206)中检索所述场境元数据(110)。
4.根据权利要求1-3中的任一项所述的方法(600),其中,所述场境元数据(110)包括以下中的至少一个:与所述语音输入(104)相关联的语音识别类别、在与所述用户相关联的用户设备(200)上运行的应用、在接收到所述语音输入(104)时所述用户的位置、标识所述用户的用户标识符(12)、与所述用户相关联的人口统计信息或用于对文本进行去规范化的用户偏好。
5.根据权利要求1-4中的任一项所述的方法(600),其中,选择所述一个或多个去规范化器(352)的所述列表包括通过以下中的至少一个来修改来自所述去规范化器(350)的预定义集合的去规范化器(348)的默认列表:从所述去规范化器(348)的所述默认列表中移除一个或多个去规范化器(352)或者将来自所述去规范化器(350)的预定义集合的一个或多个去规范化器(352)添加到所述去规范化器(348)的所述默认列表。
6.根据权利要求1-5中的任一项所述的方法(600),还包括:
由所述数据处理硬件(710)将与所述语音输入(104)相关联的所述场境元数据(110)提供给场境服务器(400),所述场境服务器(400)被配置成基于所述场境元数据(110)来生成用于将所生成的原始语音识别结果(312)去规范化成所述去规范化文本(322)的去规范化指令(410);以及
在所述数据处理硬件(710)处,从所述场境服务器(400)接收所述去规范化指令(410),
其中,选择所述一个或多个去规范化器(352)的所述列表包括使用从所述场境服务器(400)接收到的所述去规范化指令(410)来选择所述一个或多个去规范化器(352)的所述列表。
7.根据权利要求6所述的方法(600),其中,将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400)包括将与所述语音输入(104)相关联的所述场境元数据(110)提供给所述场境服务器(400),而不将所述语音输入(104)或与所述语音输入(104)相关联的任何音频数据(103)提供给所述场境服务器(400)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980058744.X/1.html,转载请声明来源钻瓜专利网。





