[发明专利]语音唤醒方法及语音交互装置在审
申请号: | 201610902502.2 | 申请日: | 2016-10-17 |
公开(公告)号: | CN106653031A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 杨香斌 | 申请(专利权)人: | 海信集团有限公司 |
主分类号: | G10L15/34 | 分类号: | G10L15/34;G10L15/26;G10L15/08;G10L21/0208 |
代理公司: | 北京同立钧成知识产权代理有限公司11205 | 代理人: | 刘丹,黄健 |
地址: | 266071 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 唤醒 方法 交互 装置 | ||
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音唤醒方法及语音交互装置。
背景技术
随着语音识别技术的飞速发展,语音交互的应用场景越来越普遍,智能电视,智能车载,智能家居,智能机器人都是语音交互应用的主要应用场景,同时由于人机交互对于用户体验的要求越来越高,人机语音对话的距离也越来越不局限于近讲(50cm以内)。现在通过多麦克风技术,已经能够实现3-5米内的远距离语音交互。
与此同时,远距离语音交互还存在一个问题,就是什么时候开始触发语音收音并且开始识别。目前的技术方案有两种,一种是用一颗低功耗芯片,一直通过麦克风阵列收音,做相应的信号处理后(信号增强,噪声抑制,回声消除),然后再做语音识别,判断用户是否说出唤醒词,如果说了,则通知主模块,开始收音并进行语音识别,还有一种方式是前端的模块只做信号处理,由主模块来一直收音,并做语音识别来判断用户是否说出唤醒词,但是这两种方式都有弊端,前一种方式由于前端处理模块要求低功耗,所以识别性能相对来说会较低,同时误唤醒率也会较高;而后一种方案的问题是主芯片模块需要一直全速运行,功耗会比较大,并且由于对主芯片模块的要求比较高,方案的成本也比较高。目前尚无兼顾功耗和误唤醒率的方案。
发明内容
本发明实施例提供一种语音唤醒方法及语音交互装置,用以解决现有技术无法兼顾功耗和误唤醒率的问题。
本发明实施例第一方面提供一种语音唤醒方法,该方法包括:
接收语音输入信号;
确定所述语音输入信号和预设的唤醒语音信号之间的相似度是否超过第一预设阈值;
若超过,则将所述语音输入信号发送至云端服务器,以使所述云端服务器对所述语音输入信号进行语音识别,并返回识别结果;
接收所述云端服务器返回的所述语音输入信号对应的识别结果;
确定所述识别结果和所述预设的唤醒语音信号之间的相似度是否超过第二预设阈值,其中所述第二预设阈值大于所述第一预设阈值;
若超过,唤醒语音交互功能。
本发明实施例第二方面提供一种语音交互装置,该装置包括:
第一接收模块,用于接收语音输入信号;
确定模块,用于确定所述语音输入信号和预设的唤醒语音信号之间的相似度是否超过第一预设阈值;
发送模块,用于在所述语音输入信号和预设的唤醒语音信号之间的相似度超过第一预设阈值时,将所述语音输入信号发送至云端服务器,以使所述云端服务器对所述语音输入信号进行语音识别,并返回识别结果;
第二接收模块,用于接收所述云端服务器返回的所述语音输入信号对应的识别结果;
所述确定模块,还用于确定所述识别结果和所述预设的唤醒语音信号之间的相似度是否超过第二预设阈值,其中所述第二预设阈值大于所述第一预设阈值;
唤醒模块,用于当所述识别结果和所述预设的唤醒语音信号之间的相似度超过第二预设阈值时,唤醒语音交互功能。
本发明实施例,通过将接收到的语音输入信号与预设的唤醒语音信号进行第一次匹配,确定语音输入信号与预设的唤醒语音信号之间的相似度,从而初步确定语音输入信号为唤醒语音信号的可能性,进一步的,当语音输入信号为唤醒语音信号的可能性超过一定阈值时,再将接收到的语音输入信号发送至云端服务器进行精确识别,从而将云端服务器的识别结果与预设的唤醒语音信号进行第二次匹配,来最终确定是否唤醒语音交互功能。即本发明实施例通过初步识别和精确识别两次识别来确定语音输入信号是否是预设的唤醒语音信号,从而降低了语音交互功能的误唤醒率,并且由于本发明实施例中,精确识别是在云端服务器上进行的,因此能够降低语音交互装置本身的成本和功耗。从而能够兼顾低功耗功耗和低误唤醒率的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的语音唤醒方法的流程示意图;
图2为发明一实施例提供的步骤S103的执行方法流程示意图;
图3为本发明一实施例提供的语音交互装置的架构图;
图4为本发明一实施例提供的语音交互装置的结构示意图;
图5为本发明一实施例提供的发送模块13的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信集团有限公司,未经海信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610902502.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:乳液瓶(TL‑2278)
- 下一篇:酒瓶(圆形)