[发明专利]人机语音交互方法及系统在审

申请号：	201510397428.9	申请日：	2015-07-08
公开（公告）号：	CN105070290A	公开（公告）日：	2015-11-18
发明（设计）人：	周伟达;俞凯;张顺;常成	申请（专利权）人：	苏州思必驰信息科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	215123 江苏省苏州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人机语音交互方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别技术领域，具体涉及语音交互方法及系统。

背景技术

随着语音核心技术和应用环境的逐步发展，语音交互在全球范围内正在被越来越多的用户接受和使用。目前，人机语音交互过程为“系统说话”和“用户说话”交替进行。但是，这种语音技术对语音交互的支持并不完善，存在一定局限性，系统在与用户语音交互的过程中不允许用户插话(或称打断)，一旦出现两者重叠，将会导致不可预知的结果，导致该人机语音交互系统的灵活性和稳定性较差。

显然，上述人机语音交互方式不同于普通的人与人的交流，正常人互相交流很可能在对方说话期间打断对方。这种情况可能发生于打断方已经明白了对方意图，或不关心对方后面要说的内容，或自己有更紧急重要的内容要说等。所以，交互过程中用户不能打断将使人与机器的交互非常不自然，而且倘若用户出于正常交互习惯进行了打断，系统将无法处理从而导致不可预知的反馈，给用户带来非常差的体验。

近年来有一些这方面的研究，比如专利CN201210387520.3(发明名称为：一种会议系统中播放提示语音的方法)中提到在会议进行过程中播放提示语音时，对解码后的会场语音信号与提示语音信号进行混音处理，形成混合语音信号进行处理，不会打断用户的正常发言或由于音量不合适干扰到用户的正常发言。该方法在一定程度上实现了在系统和用户说话重叠情况下的处理，但仅限于在信号层处理，无法处理交互情况或更复杂情况下的语音重叠情况，适用面较窄。

另外，关于如何处理交互过程中用户的打断行为，在专利CN200480027961.6(发明名称：允许声音打断的系统与方法)中有提及到，该方法通过对输入信号与声音提示模型和声音目标词汇表模型进行比较，从而寻找输入信号的最佳匹配。该方法的研究中限制了用户说话在特定的词汇表中，即限于特定的命令，难于拓展，也无法用于复杂的真正的人机交互中。

发明内容

针对现有技术中的缺陷，本发明提供了一种人机语音交互方法及系统，通过改进的回声对消技术提高了对话时语音重叠的语音识别效果，并以此为基础设计打断控制模块，有效的检测交互过程中用户的打断行为、决策机器说话时机和内容，使机器更智能。

第一方面，本发明提供一种人机语音交互方法，包括：

在系统状态，将录音信号和参考信号回声对消过程划分为多个子过程，将每个子过程拼接，获取录音信号和参考信号回声对消的输出结果，所述参考信号为机器播放器发出的语言信号；

将所述录音信号和参考信号回声对消输出结果输入VAD模型，当检测到用户语音信号时，实时输出语音识别结果；

当根据所述实时输出语音识别结果判定用户意图打断系统语音信号输出时，终止系统播放语音信号，进入用户状态，监听并识别用户语音信号

当检测到用户语音信号输出结束，根据最终语音识别结果向用户反馈，完成一轮用户的打断和回应过程。

可选地，将录音信号和参考信号回声对消之前，所述方法还包括：

将所述录音信号和参量信号分别划分为多个数据块，对每一块含有时间戳信号的录音信号数据块，查找与其开始时间戳相同且时间长度相同的参考信号数据块，使得所述录音信号和参考信号时间对齐；

可选地，所述每个子过程包括：

以每一个录音信号数据块为基本单位，将其与时间对齐的参考信号数据块进行对消。

可选地，实时输出语音识别结果包括：