[发明专利]多模态语音唤醒和打断方法及装置在审
| 申请号: | 202110377897.X | 申请日: | 2021-04-08 |
| 公开(公告)号: | CN113113009A | 公开(公告)日: | 2021-07-13 |
| 发明(设计)人: | 董鑫;黄炎哲;初敏 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/25 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多模态 语音 唤醒 打断 方法 装置 | ||
1.一种多模态语音唤醒方法,包括:
响应于获取到用户的嘴唇轮廓,基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图;
若有交互意图,获取所述用户的语音信息并进行语音识别处理;
基于语音识别处理结果,判断所述语音识别处理结果的语义是否有效;
若所述语义有效,唤醒设备与所述用户进行语音交互。
2.根据权利要求1所述的方法,其中,所述判断所述语音识别处理结果的语义是否有效包括:
对所述语音识别结果进行语义理解形成语义理解结果;
判断所述语义理解结果是否与预设意图匹配;
在所述判断所述语音识别处理结果是否能够理解之后,所述方法还包括:
若所述语音识别处理结果对应的语义理解结果与所述预设意图不匹配,不唤醒设备并再次基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图。
3.根据权利要求1所述的方法,其中,所述响应于获取到用户的嘴唇轮廓,基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图包括:
响应于获取到用户的脸部整体框架,基于所述脸部整体框架获取嘴唇轮廓;
基于所述嘴唇轮廓的位置信息提取至少一个关键点坐标,将不同时刻的所述至少一个关键点坐标进行对比,判断是否存在预设数量的关键点坐标的位置变化超过预设阈值;
若存在预设数量的关键点坐标的位置变化超过预设阈值,则判定所述用户有交互意图。
4.根据权利要求3所述的方法,其中,所述至少一个关键点坐标包括:左唇角、右唇角、左唇峰、右唇峰、上嘴唇唇谷和下嘴唇唇底。
5.根据权利要求3所述的方法,其中,所述预设数量的关键点坐标为所述至少一个关键点坐标的一半关键点坐标。
6.一种多模态语音打断方法,包括:
响应于在设备播报过程中持续获取到用户的嘴唇轮廓,基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图;
若有交互意图,持续获取所述用户的语音信息并持续进行语音识别处理;
基于语音识别处理结果,判断所述语音识别处理结果是否有效;
若有效,停止播报并等待所述用户停止说话。
7.根据权利要求6所述的方法,其中,在所述判断所述语音识别处理结果是否有效之后,还包括:
若判断所述语音识别处理结果无效,设备继续播报。
8.一种多模态语音唤醒装置,包括:
第一获取判断程序模块,配置为响应于获取到用户的嘴唇轮廓,基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图;
第一获取识别程序模块,配置为若有交互意图,获取所述用户的语音信息并进行语音识别处理;
第一判断程序模块,配置为基于语音识别处理结果,判断所述语音识别处理结果的语义是否有效;
唤醒程序模块,配置为若所述语义有效,唤醒设备与所述用户进行语音交互。
9.一种多模态语音打断装置,包括:
第二获取判断程序模块,配置为响应于在设备播报过程中持续获取到用户的嘴唇轮廓,基于所述用户的嘴唇轮廓的变化判断所述用户是否有交互意图;
第二获取识别程序模块,配置为若有交互意图,持续获取所述用户的语音信息并持续进行语音识别处理;
第二判断程序模块,配置为基于语音识别处理结果,判断所述语音识别处理结果是否有效;
停止程序模块,配置为若有效,停止播报并等待所述用户停止说话。
10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110377897.X/1.html,转载请声明来源钻瓜专利网。





