[发明专利]用于低资源设备的高准确度关键短语检测的方法和系统在审
申请号: | 202010197657.7 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111833866A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 塞巴斯蒂安·切里巴;托比亚斯·博克雷;库巴·洛帕特卡 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/02;G10L15/06;G10L15/16;G10L15/14;G10L15/183 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 姜飞 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 资源 设备 准确度 关键 短语 检测 方法 系统 | ||
本申请涉及用于低资源设备的高准确度关键短语检测的方法和系统。本文公开了与用于诸如话音唤醒之类的应用的关键短语检测有关的技术。通过使用三音素中的音素位置的分数来选择哪些三音素要与排斥模型一起使用、将上下文相关音素用于排斥模型、在针对关键短语模型的关键短语声音之前添加静默或这些的任何组合,此类技术可以具有高准确度。
技术领域
本申请涉及用于低资源设备的高准确度关键短语检测的方法和系统。
背景技术
关键短语检测(诸如话音唤醒或WoV)或热词检测系统可以用于检测被称为唤醒短语的词或短语等。对这样的唤醒短语的检测可以通过设备来启动活动。例如,设备可以通过从低功率侦听状态或休眠模式过渡到活动模式来唤醒,并且在许多情况下,激活诸如个人助理(PA)应用之类的特定计算机程序。
此类系统常常被放置在诸如智能电话之类的多功能设备上,在这些设备上消费者越来越要求能量节约以增加设备的电力寿命同时还要求最高可能的质量。虽然已经存在一些低资源WoV系统,但是这些系统由于低效率的存储器使用和重计算负荷而仍然消耗太多功率,同时这些系统通过唤醒与实际的关键短语接近但不相同的口语词仍然可能是非常不准确的,从而常常对用户来说产生烦人且浪费时间的体验。
发明内容
根据本申请的一方面,提供了一种计算机实现的音频关键短语检测的方法。该方法包括:生成与接收到的音频输入相关联的亚语音单位的分数的时间系列和添加的静默分数;基于亚语音单位的分数的时间系列中的至少一些,来更新基于起始状态的排斥模型和与预先确定的关键短语相关联的关键短语模型,其中,所述排斥模型和所述关键短语模型都具有通过过渡互连的状态;经由所述过渡从所述排斥模型并通过所述关键短语模型来传播分数相关值,并且包括通过一系列连续的静默状态来传播所述值以在口语关键短语的至少一部分之前或之后或者之前和之后有意地添加静默;以及取决于通过使用所述关键短语模型所计算的关键短语检测似然分数而进行关键短语检测确定。
根据本申请的另一方面,提供了一种用于执行关键短语检测的系统。该系统包括:存储器,所述存储器被配置为存储声学模型、基于起始状态的排斥模型以及与预先确定的关键短语相关联的至少一个关键短语模型;以及至少一个处理器,所述至少一个处理器耦合到所述存储器并且通过以下步骤来操作:生成所述声学模型以生成亚语音单位的分数的时间系列以便基于亚语音单位的分数的时间系列中的至少一些来更新所述排斥模型和所述关键短语模型以生成关键短语似然分数;生成所述排斥模型以接收三音素的排斥分数,所述三音素形成所述声学模型的亚语音单位,其中,所述排斥分数是排斥语音非关键短语三音素的分数,所述排斥语音非关键短语三音素具有从以下音素改变而来的音素中的一个或两个:这些音素形成所述声学模型的至少一个所接受的关键短语三音素输出,所述输出形成要检测的关键短语的一部分;以及生成所述关键短语模型,以从所述排斥模型接收值来生成所述关键短语似然分数以进行关键短语检测确定。
根据本申请的另一方面,提供了至少一种非暂时性机器可读介质,所述非暂时性机器可读介质包括多个指令,所述多个指令响应于在设备上被执行,使所述设备通过以下步骤来操作:生成音频关键短语检测模型,包括:训练具有多个排斥输出节点的声学模型,所述排斥输出节点各自包括亚语音单位,至少一些亚语音单位的形式为绑定上下文相关三音素HMM状态;确定在词汇表分类数据结构中选择的三音素的一个或多个最多发生的中心音素分数,所述词汇表分类数据结构接收形成词汇表的单音素作为该结构的输入,并且所述一个或多个最多发生的中心音素分数是针对与所述单音素中的不同单音素相关联的每个中心音素而确定的;生成排斥模型,包括将所述排斥模型布置为接收所述声学模型上的所述亚语音单位中的个别亚语音单位的排斥分数,所述亚语音单位分别表示所述中心音素中的一个或所述三音素中的一个;以及生成至少一个关键短语模型,该关键短语模型从所述排斥模型接收值以进行检测确定。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010197657.7/2.html,转载请声明来源钻瓜专利网。