[发明专利]自动语音识别系统中的快速词汇表外搜索有效

专利信息
申请号: 201380074067.3 申请日: 2013-12-24
公开(公告)号: CN105027196B 公开(公告)日: 2019-01-11
发明(设计)人: A·列夫-托夫;A·法伊扎科夫;Y·康尼格 申请(专利权)人: 格林伊登美国控股有限责任公司
主分类号: G10L15/18 分类号: G10L15/18;G10L15/26;G10L15/28;G06F17/28
代理公司: 北京瑞恒信达知识产权代理事务所(普通合伙) 11382 代理人: 曹津燕;尹卓
地址: 美国加利福*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 查询 字段 计算机系统 后处理 自动语音识别系统 搜索 词汇表 可能位置 使用约束 文本搜索 音频文件 语音识别 字段分类 字段识别 语法 合并
【说明书】:

发明公开了一种自动语音识别系统中的快速词汇表外搜索的方法,包括以下步骤:在计算机系统上接收文本搜索查询,该查询包括一个或多个查询字;在计算机系统上为查询中的每一个查询字生成语音识别处理后的音频文件中的一个或多个锚字段,所述一个或多个锚字段识别包含查询字的可能位置;在计算机系统上后处理一个或多个锚字段,该后处理步骤包括:扩展所述一个或多个锚字段;将所述一个或多个锚字段分类;和合并所述一个或多个锚字段中重叠的总代吗;和使用约束语法对所述一个或多个查询字中的至少一个的实例在计算机系统上搜索后处理的一个或多个锚字段。

技术领域

本发明的多个方面涉及到语音处理、索引和搜索。更具体地,本发明的多个方面涉及在自动语音识别(ASR)系统(例如,大词汇量连续语音识别(LVCSR)系统或者类似的适当系统)中搜索包含至少一个词汇表外(OOV)字的短语。

背景技术

在很多情况下,大集合录制音频(音频信息)的用户很重视在音频中快速搜索字或短语的能力。例如,在企业联络中心(例如,呼叫中心)中,可以搜索并分析客户与客户服务代表(或代理)之间的记录谈话以识别客户满意度或客户问题的倾向、监督各种支持代理的性能以及定位与特定问题相关的呼叫。作为另一个示例,可搜索的讲课记录允许学生搜索并重放特定兴趣话题的讨论。可搜索的语音信箱消息也允许用户快速找到包含特定字的语音消息。另一个示例中,可搜索的复杂医疗程序(例如,外科手术)的记录可以用于定位涉及特定装置的使用、手术中方法的选择以及多种并发症的过程的记录。

通常,自动语音识别(ASR)系统,特别是大词汇量连续语音识别(LVCSR)转录引擎包括三个部分:一组语言模块(LM)、一组声学模块(AM)和解码器。LM和AM通常通过向学习模块提供音频文件及其录音文本(例如,已知的、准确的录音文本)进行训练。通常,LM为统计LM(SLM)。训练过程使用字典(或“词汇表”),该字典将识别的书面语映射到子词序列(例如,因素或音节)。在语音识别过程中,解码器分析音频片段(例如,音频文件)并且输出识别的字序列。

可以通过使用LVCSR引擎处理每个音频文件来搜索音频文件集(例如,呼叫中心的呼叫或者课堂上的一系列演讲)以生成文本抄本文件,在该文本抄本文件中抄本中的每个写成的字(基本上)对应于音频文件中口述的字。该生成的文本接着可以被传统的基于文本的搜索引擎(例如,Apache LuceneTM)编入索引。然后,用户可以查询该生成的索引(例如,搜索索引数据库)以搜索抄本。

通常,LVCSR引擎输出中的识别字是从ASR系统的字典(或“词汇表”)中包含的字中选择的(例如,压缩成所述字)。不在该词汇表中(“词汇表外”或“OOV”字)的字可能被识别为(例如,具有低可信度的)该词汇表中的字。例如,如果字“Amarillo”不在词汇表中,“LVCSR”引擎可能会在输出中将该字转录为“ambassador”。因此,当使用这种ASR系统时,终端用户都不可能从该索引中搜索到不在该词汇表中的任何情况的字。

解决该问题的一个方案是将OOV字添加到该词典(即,将该字添加到词汇表),并且生成新LM(可以是SLM或者约束语法),然后重新处理音频文件。然而,因为需要重新处理音频语料库,所以这种方法将会增加生成搜索结果的延迟。

在其它的ASR系统中,输出数据为子字水平识别数据,例如音频的语音抄本,而不是LVCSR输出或者基于近似字的抄本。这种ASR系统通常不包括字词汇表。相反,这些引擎提供了一种搜索任何字符序列的方法。这种情况下,通过将搜索短语映射到语音序列并且在语音抄本索引中搜索给定的语音序列执行搜索。通常认为这些引擎的准确性低于基于LVCSR的引擎,这是因为字的概念并不是识别过程所固有的,而使用字(例如,字的含义)通常有助于提高语音识别的准确性。

通常,自动语音识别的组合字和音素水平不能解决已知的基于语音的方法的准确度问题,对于包括至少一个OOV字的查询,单纯基于语音的方法的准确度限制仍然会持续。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格林伊登美国控股有限责任公司,未经格林伊登美国控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201380074067.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top