[发明专利]快速语音交互方法及系统有效
| 申请号: | 201610616071.3 | 申请日: | 2016-07-29 |
| 公开(公告)号: | CN107665706B | 公开(公告)日: | 2021-05-04 |
| 发明(设计)人: | 吴奎;陈凌辉;黄鑫;陈志刚;王智国;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/183;G10L15/22;G10L15/26 |
| 代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 赵景平;宋少华 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 快速 语音 交互 方法 系统 | ||
本发明公开了一种快速语音交互方法及系统,该方法包括:实时接收用户语音输入;对语音输入信息进行实时语音识别,得到语音识别结果;基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解,得到模型输出结果;根据所述模型输出结果确定是否有正确完整的语义理解结果;如果是,则根据所述语义理解结果生成交互结果,并将所述交互结果反馈给用户;否则,继续对语音输入信息进行实时语音识别。本发明可以减小语音交互的反馈延迟,提升用户体验。
技术领域
本发明涉及语音信号处理、人机交互领域,具体涉及一种快速语音交互方法及系统。
背景技术
随着人工智能技术的进步,人机语音交互也取得了长足的发展,各种语音助手APP和人机交互机器人大肆兴起。这些语音助手和机器人与用户进行交互的流程通常如下:
(1)通过语音或者设定操作进行唤醒;
(2)通过语音后端点检测判断用户是否说完;
(3)检测到用户说完后,将识别结果传入语义理解引擎,进行语义理解;
(4)根据语义理解结果,系统做出响应。
在上述流程中,语音识别和语义理解是串行进行的,即系统检测到语音后端点后才将语音识别结果送入语义理解引擎。语音后端点检测需要设定静寂时长,通常为0.8s-1.8s之间,因此从用户真正说完的时间点到获得系统返回交互理解结果的时间,不考虑语义理解引擎耗时,至少存在一个静寂时长这样一个硬延迟。且在噪声环境下,后端点检测精度不高,会带来更大的硬延迟,影响用户体验。
发明内容
本发明提供一种快速语音交互方法及系统,以减小语音交互的反馈延迟,提升用户体验。
为此,本发明提供如下技术方案:
一种快速语音交互方法,包括:
实时接收用户语音输入;
对语音输入信息进行实时语音识别,得到语音识别结果;
基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解,得到模型输出结果;
根据所述模型输出结果确定是否有正确完整的语义理解结果;
如果是,则根据所述语义理解结果生成交互结果,并将所述交互结果反馈给用户;
否则,继续对语音输入信息进行实时语音识别。
优选地,所述方法还包括按以下方式构建所述语义理解模型:
确定模型拓扑结构;
收集人机交互文本数据作为训练数据;
对所述训练数据中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
对所述分词词串中的每个词,依据对话历史信息,依次对语义理解结果进行赋值,并标注业务类别、以及信息槽或状态槽,直至已标注词串能够表达一个正确完整的信息输入时,停止标注并丢弃后续的词串;
基于训练数据及其赋值信息和标注信息,训练得到语义理解模型。
优选地,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:当前词的词向量wn(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息,其中,所述对话历史信息包括:截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1);
所述输出层的输出包括:语义理解结果p(t)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610616071.3/2.html,转载请声明来源钻瓜专利网。





