[发明专利]人机语音交互方法及系统在审
申请号: | 201510397428.9 | 申请日: | 2015-07-08 |
公开(公告)号: | CN105070290A | 公开(公告)日: | 2015-11-18 |
发明(设计)人: | 周伟达;俞凯;张顺;常成 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 215123 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人机 语音 交互 方法 系统 | ||
技术领域
本发明涉及语音识别技术领域,具体涉及语音交互方法及系统。
背景技术
随着语音核心技术和应用环境的逐步发展,语音交互在全球范围内正在被越来越多的用户接受和使用。目前,人机语音交互过程为“系统说话”和“用户说话”交替进行。但是,这种语音技术对语音交互的支持并不完善,存在一定局限性,系统在与用户语音交互的过程中不允许用户插话(或称打断),一旦出现两者重叠,将会导致不可预知的结果,导致该人机语音交互系统的灵活性和稳定性较差。
显然,上述人机语音交互方式不同于普通的人与人的交流,正常人互相交流很可能在对方说话期间打断对方。这种情况可能发生于打断方已经明白了对方意图,或不关心对方后面要说的内容,或自己有更紧急重要的内容要说等。所以,交互过程中用户不能打断将使人与机器的交互非常不自然,而且倘若用户出于正常交互习惯进行了打断,系统将无法处理从而导致不可预知的反馈,给用户带来非常差的体验。
近年来有一些这方面的研究,比如专利CN201210387520.3(发明名称为:一种会议系统中播放提示语音的方法)中提到在会议进行过程中播放提示语音时,对解码后的会场语音信号与提示语音信号进行混音处理,形成混合语音信号进行处理,不会打断用户的正常发言或由于音量不合适干扰到用户的正常发言。该方法在一定程度上实现了在系统和用户说话重叠情况下的处理,但仅限于在信号层处理,无法处理交互情况或更复杂情况下的语音重叠情况,适用面较窄。
另外,关于如何处理交互过程中用户的打断行为,在专利CN200480027961.6(发明名称:允许声音打断的系统与方法)中有提及到,该方法通过对输入信号与声音提示模型和声音目标词汇表模型进行比较,从而寻找输入信号的最佳匹配。该方法的研究中限制了用户说话在特定的词汇表中,即限于特定的命令,难于拓展,也无法用于复杂的真正的人机交互中。
发明内容
针对现有技术中的缺陷,本发明提供了一种人机语音交互方法及系统,通过改进的回声对消技术提高了对话时语音重叠的语音识别效果,并以此为基础设计打断控制模块,有效的检测交互过程中用户的打断行为、决策机器说话时机和内容,使机器更智能。
第一方面,本发明提供一种人机语音交互方法,包括:
在系统状态,将录音信号和参考信号回声对消过程划分为多个子过程,将每个子过程拼接,获取录音信号和参考信号回声对消的输出结果,所述参考信号为机器播放器发出的语言信号;
将所述录音信号和参考信号回声对消输出结果输入VAD模型,当检测到用户语音信号时,实时输出语音识别结果;
当根据所述实时输出语音识别结果判定用户意图打断系统语音信号输出时,终止系统播放语音信号,进入用户状态,监听并识别用户语音信号
当检测到用户语音信号输出结束,根据最终语音识别结果向用户反馈,完成一轮用户的打断和回应过程。
可选地,将录音信号和参考信号回声对消之前,所述方法还包括:
将所述录音信号和参量信号分别划分为多个数据块,对每一块含有时间戳信号的录音信号数据块,查找与其开始时间戳相同且时间长度相同的参考信号数据块,使得所述录音信号和参考信号时间对齐;
可选地,所述每个子过程包括:
以每一个录音信号数据块为基本单位,将其与时间对齐的参考信号数据块进行对消。
可选地,实时输出语音识别结果包括:
每次在获取语音识别结果时,对当前收到的所有信息进行识别,结合上下文信息实时输出语音识别结果。
可选地,VAD模型是经过回声对消之后的语音训练的模型。
可选地,根据所述实时输出语音识别结果所述判定用户意图打断系统语音信号输出包括:
将所述实时输出语音识别结果与预设词汇表模型和/或语法模型进行匹配,判定用户意图打断系统语音信号输出。
第二方面,本发明还提供了一种人机语音交互系统,包括回声消除模块、VAD检测模块、语音识别模块、打断控制模块、部分语义理解模块、一般对话管理模块和语音合成模块;其中:
回声消除模块,用于从录音机和语音合成模块获取输入,在其内部将录音信号和参考信号进行时间对齐,运用回声对消方法得到回声消除后的音频信号;
VAD检测模块,用于对所述回声消除后的音频信号做VAD检测和实时反馈的语音识别,输出VAD信息、实时识别结果、信号层和文本内容层的时间基准;
语音识别模块,用于实时反馈的语音识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510397428.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音频文件数据重排序的方法和系统
- 下一篇:一种移动终端的颜色显示方法及系统