[发明专利]免唤醒交互方法和装置在审
| 申请号: | 202011625969.X | 申请日: | 2020-12-31 |
| 公开(公告)号: | CN112863508A | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 林永楷;樊帅;李春;石韡斯;宋洪博;朱成亚 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 唤醒 交互 方法 装置 | ||
本发明公开一种免唤醒交互方法和装置,其中,免唤醒交互方法,包括:响应于接收到用户的有效语音信号,基于所述有效语音信号所在的时间段确定检测区间;若在所述检测区间内检测到所述用户的有效指向特征,判断所述有效语音信号和所述有效指向特征是否对应有效指令;若判断对应有效指令,则对所述有效指令进行处理和反馈。本方案利用指向特征结合语音交互达到免唤醒交互,能够在保证低误唤醒率的情况下,提升用户同智能语音设备的交互体验,尤其在频繁交互的场景下能够较大幅度的提高用户交互效率,同时将唤醒特征的模态作为对话系统的多模态输入也丰富了语音对话系统的应用场景。
技术领域
本发明属于语音识别领域,尤其涉及免唤醒交互方法和装置。
背景技术
为了提高交互的准确度,避免误操作,当前智能设备普遍需要唤醒后才可以进行语音交互。而目前唤醒技术仍然以语音唤醒为主,为了避免误操作,部分技术支持将少数命令注册为快捷唤醒词,比如上一首下一首,但是引入过多的快捷唤醒词将会增加误唤醒的概率,因此快捷唤醒词的使用都是比较克制的。也有部分技术支持特定场景下识别到人脸后免使用唤醒词就可以交互,但这会对用户的姿态有要求,必须先人脸识别成功后才可以操作。并且由于人脸的朝向,距离也容易出现误唤醒的情况。总的来说,需要先唤醒才能操作智能设备是该领域长期存在的问题。
目前市面上已有的与免唤醒相关的技术方案:有的方案需要额外的无线耳机设备用于计算距离,但是,即便距离很近也不代表就是在和音箱对话;有的方案只是简单地设置一些免唤醒词,比如上一首下一首之类的,并且这种方案主要是针对当前运行的应用程序,过多的唤醒词也会导致误唤醒率上升;有的方案对于眼睛视线的检测精度低,比如眼睛看着键盘时,无法捕捉到是看H还是看G;有的方案则不是用于唤醒,而只是用来保持对话;有的方案存在人多时就无法免唤醒的缺陷。现有技术中并没有提出一种对用户比较友好的免唤醒的方案。
发明内容
本发明实施例提供一种免唤醒交互方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种免唤醒交互方法,包括:响应于接收到用户的有效语音信号,基于所述有效语音信号所在的时间段确定检测区间若在所述检测区间内检测到所述用户的有效指向特征,判断所述有效语音信号和所述有效指向特征是否对应有效指令;若判断对应有效指令,则对所述有效指令进行处理和反馈。
第一方面,本发明实施例提供一种用于对话系统的多模态输入特征处理方法,包括:响应于设备被多模态输入特征唤醒,接收所述多模态输入特征和用户语音控制指令;基于所述多模态输入特征和所述用户语音控制指令形成实际控制指令;以及对所述实际控制指令进行响应。
第三方面,本发明实施例提供一种免唤醒交互装置,包括:信号接收程序模块,配置为响应于接收到有效语音信号,对所述有效语音信号区间采集的图像是否包含有效指向特征进行判断,其中,所述有效指向特征指用户发出的指向动作,包含所述有效指向特征的区间为指向区间;信号判定程序模块,配置为若判断所述有效语音信号区间包含有效指向特征,则将所述有效语音信号区间的多模态信息输入至对话系统进行是否有效指令判断,其中,多模态信息为包含音频和包含指向动作的图像;指令响应程序模块,配置为若判断所述多模态信息为有效指令,则响应所述指令并反馈响应结果。
第四方面,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述方法的步骤。
第五方面,本发明实施例还提供一种存储介质,其包括:所述程序被处理器执行时实现第一方面所述方法的步骤。
本申请实施例提供一套利用指向信息结合语音交互达到免唤醒交互的方法,能够在保证低误唤醒率的情况下,提升用户同智能语音设备的交互体验,尤其在频率交互的场景下能够较大幅度的提高用户交互效率,同时唤醒特征的模态作为对话系统的多模态输入也丰富了语音对话系统的应用场景。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011625969.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于苗木出圃的临时假植系统
- 下一篇:一种注塑保压设备





