[发明专利]语音交互的处理方法、装置、电子设备及存储介质在审

申请号：	202011246776.3	申请日：	2020-11-10
公开（公告）号：	CN112466296A	公开（公告）日：	2021-03-09
发明（设计）人：	白锦峰;王知践;高聪	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/22;G10L15/30
代理公司：	北京鸿德海业知识产权代理有限公司 11412	代理人：	田宏宾
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音交互处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语音交互的处理方法、装置、电子设备及存储介质，涉及智能语音和深度学习等人工智能技术领域。具体实现方案为：若检测到用户的语音指令不是高频指令时，采用预先训练的完整性检测模型，预测用户的语音指令的第一完整度；基于第一完整度和预设完整度阈值，配置在用户的语音指令结束后，响应用户的语音指令的操作的等待时长；控制语音交互设备基于等待时长对所述用户的语音指令进行响应。本申请的技术方案，不用在用户的语音指令一结束，便立马响应，避免语音交互设备出现“抢话”现象，可以配置响应用户的语音指令的操作的等待时长，并基于等待时长对用户的语音指令进行响应，能够有效地增强语音交互设备的智能性。

技术领域

本申请涉及计算机技术领域，特别涉及智能语音和深度学习等人工智能技术领域，尤其涉及一种语音交互的处理方法、装置、电子设备及存储介质。

背景技术

目前，市面上的基于语音交互的产品大多都是基于一次唤醒一次交互的方式。该交互方式是唤醒词检测技术和产品策略结合下的产物，其主要特点是：每当有用户喊完激活该语音交互设备的唤醒词之后，内置的唤醒词检测模块会检测到该唤醒词信号，开始启动识别聆听，当检测到语音尾点或者达到预先设定的时长结束聆听。然后将聆听过程中收到的语音进行识别，并基于语音识别的结果对用户的需求进行响应，从而达到响应用户需求的过程。

基于以上所述，可以知道现有技术中的产品策略上认为唤醒词结束后的数秒到十数秒内为聆听过程，该过程中用户向语音交互设备发出唤醒词之后的语音指令，语音交互设备基于该语音指令响应本次唤醒后的用户需求。

发明内容

本申请提供了一种语音交互的处理方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种语音交互的处理方法，其中所述方法包括：

若检测到用户的语音指令不是高频指令时，采用预先训练的完整性检测模型，预测所述用户的语音指令的第一完整度；

基于所述第一完整度和预设完整度阈值，配置在所述用户的语音指令结束后，响应所述用户的语音指令的操作的等待时长；

控制语音交互设备基于所述等待时长对所述用户的语音指令进行响应。

根据本申请的另一方面，提供了一种语音交互的处理方法，其中所述方法包括：

接收用户的语音指令；

向云端服务器上传所述用户的语音指令；

接收所述云端服务器基于所述用户的语音指令生成的控制命令；所述控制指令中携带所述云端配置的、在所述用户的语音指令结束后响应所述用户的语音指令的操作的等待时长；

根据所述控制指令中的所述等待时长，对所述用户的语音指令进行响应。