[发明专利]一种语音唤醒方法、装置及设备有效
申请号: | 202110741987.2 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113327610B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 梁镇麟;董林昊;蔡猛;马泽君 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/02;G10L15/26 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 柳欣 |
地址: | 101299 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 唤醒 方法 装置 设备 | ||
本申请实施例公开了一种语音唤醒方法、装置及设备。对于获取的待处理语音信号,从该待处理语音信号中获取待处理语音特征,并对该待处理语音特征进行编码获得声学编码表示。在获取到待处理语音信号对应的声学编码表示后,根据各声学编码表示以及声学编码表示对应的权重进行整合,进而根据整合后的声学编码表示获取待处理语音信号所包括的文字序列。在获取到文字序列后,根据文字序列以及关键词确定是否对设备进行唤醒。也就是,本申请实施例从待处理语音信号中获取可能存在的文字,进而基于字级别判断是否唤醒,不再是基于语音帧进行判断,提高唤醒效率。
技术领域
本申请涉及计算机处理技术领域,具体涉及一种语音唤醒方法、装置及设备。
背景技术
语音唤醒是目前语音领域非常重要的技术,其更多的部署于硬件上,该硬件在接收到语音指令后帮助用户完成一些任务。传统的唤醒方法通常包含一个语音识别的声学模型和包含关键词、路径裁剪的有限状态转换器(Finite State Transducers,FST),通过置信度来判断是否进行唤醒。
然而,目前的唤醒方案均是在语音帧级别上进行判断的,例如输入的语音有100帧,实际的文本很少,通过上述的唤醒方案将在长度为100的解码路径上进行搜索判断是否召回,导致解码速度较慢。
发明内容
有鉴于此,本申请实施例提供一种语音唤醒方法、装置及设备,以提高唤醒速度,提升用户使用体验。
为实现上述目的,本申请实施例提供的技术方案如下:
在本申请实施例第一方面,提供了一种语音唤醒方法,所述方法包括:
获取待处理语音信号;
从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
在本申请实施例第二方面,提供了一种语音唤醒装置,所述装置包括:
第一获取单元,用于获取待处理语音信号;
第二获取单元,用于从所述待处理语音信号中获取待处理语音特征,并对所述待处理语音特征进行编码获得声学编码表示;
第三获取单元,用于根据各所述声学编码表示以及所述声学编码表示对应的权重进行整合以获得文字序列;
判断单元,用于根据所述文字序列以及关键词确定是否对设备进行唤醒,所述关键词用于唤醒设备。
在本申请实施例第三方面,提供了一种电子设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行第一方面所述的方法。
在本申请实施例第四方面,提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行第一方面所述的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例中对于获取的待处理语音信号,从该待处理语音信号中获取待处理语音特征,并对该待处理语音特征进行编码获得声学编码表示。在获取到待处理语音信号对应的声学编码表示后,根据各声学编码表示以及声学编码表示对应的权重进行整合,进而根据整合后的声学编码表示获取待处理语音信号所包括的文字序列。在获取到文字序列后,根据文字序列以及关键词确定是否对设备进行唤醒。也就是,本申请实施例从待处理语音信号中获取可能存在的文字,进而基于字级别判断是否唤醒,不再是基于语音帧进行判断,提高唤醒效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110741987.2/2.html,转载请声明来源钻瓜专利网。