[发明专利]快速语音交互方法及系统有效
| 申请号: | 201610616071.3 | 申请日: | 2016-07-29 |
| 公开(公告)号: | CN107665706B | 公开(公告)日: | 2021-05-04 |
| 发明(设计)人: | 吴奎;陈凌辉;黄鑫;陈志刚;王智国;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/183;G10L15/22;G10L15/26 |
| 代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 赵景平;宋少华 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 快速 语音 交互 方法 系统 | ||
1.一种快速语音交互方法,其特征在于,包括:
实时接收用户语音输入;
对语音输入信息进行实时语音识别,得到语音识别结果;
基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解,得到模型输出结果;
根据所述模型输出结果确定是否有正确完整的语义理解结果,包括:根据截止到当前词的语义理解结果的向量取值或者得分,确定语义理解是否正确且完整;
如果是,则根据所述语义理解结果生成交互结果,并将所述交互结果反馈给用户;
否则,继续对语音输入信息进行实时语音识别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括按以下方式构建所述语义理解模型:
确定模型拓扑结构;
收集人机交互文本数据作为训练数据;
对所述训练数据中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
对所述分词词串中的每个词,依据对话历史信息,依次对语义理解结果进行赋值,并标注业务类别、以及信息槽或状态槽,直至已标注词串能够表达一个正确完整的信息输入时,停止标注并丢弃后续的词串;
基于训练数据及其赋值信息和标注信息,训练得到语义理解模型。
3.根据权利要求2所述的方法,其特征在于,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:当前词的词向量wn(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息,其中,所述对话历史信息包括:截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1);
所述输出层的输出包括:语义理解结果p(t)。
4.根据权利要求3所述的方法,其特征在于,所述输出层的输出还包括:截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t);或者
所述方法还包括:利用文法匹配的方式得到所述对话历史信息。
5.根据权利要求3所述的方法,其特征在于,所述信息槽填充情况为二值向量。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于预先构建的语义理解模型对所述实时语音识别结果进行实时语义理解,得到模型输出结果包括:
获取所述实时语音识别结果中的当前词及其词向量wn(t);
将当前词向量wn、截止到上一个词的隐层向量h(t-1)、以及对话历史信息输入所述语义理解模型,得到模型输出的截止到当前词的语义理解结果p(t)。
7.根据权利要求1至5任一项所述的方法,其特征在于,
所述根据所述语义理解结果生成交互结果具体为:根据所述语义理解结果生成响应文本;
所述将所述交互结果反馈给用户包括:通过语音播报的方式将所述响应文本反馈给用户。
8.根据权利要求7所述的方法,其特征在于,所述根据所述语义理解结果生成响应文本包括:
根据所述业务分类信息c(t),获得得分最高的业务;
根据所述信息槽填充情况s(t)查找所述得分最高的业务对应的信息槽填充情况;
如果所述得分最高的业务对应的信息槽均已填充,则生成应答文本;
否则,根据所述得分最高的业务对应的未填充的信息槽,生成提问文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610616071.3/1.html,转载请声明来源钻瓜专利网。





