[发明专利]语音交互的方法、装置、设备和计算机可读存储介质有效
申请号: | 201911168794.1 | 申请日: | 2019-11-25 |
公开(公告)号: | CN110992940B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 马啸空;张策;白锦峰;贾磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/02;G10L25/03 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;张翠玲 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 交互 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种语音交互方法,包括:
从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;
将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及
根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。
2.根据权利要求1所述的方法,还包括:
标注所述训练语音数据,经标注的所述训练语音数据是指示交互意图的正例训练语音数据或指示非交互意图的负例训练语音数据;以及
利用经标注的所述训练语音数据来构建所述类型识别模型。
3.根据权利要求2所述的方法,其中标注所述训练语音数据包括:
根据确定以下至少一项,将所述训练语音数据标注为所述正例训练语音数据:
所述训练语音数据的语义已被正确识别;
所述训练语音数据具有交互意图;以及
所述训练语音数据所指示的交互操作被正确执行。
4.根据权利要求2所述的方法,其中标注所述训练语音数据包括:
根据确定以下至少一项,将所述训练语音数据标注为所述负例训练语音数据:
所述训练语音数据的语义未被正确识别;
所述训练语音数据具有非交互意图;以及
所述训练语音数据所指示的交互操作未被正确执行。
5.根据权利要求1所述的方法,还包括:
从所述训练语音数据中确定第一部分训练语音数据以及第二部分训练语音数据,其中所述第二部分训练语音数据比所述第一部分训练语音数据在构建类型识别模型方面具有更高的准确度;
利用所述第一部分训练语音数据的所述声学特征来构建基础模型;以及
利用所述第二部分训练语音数据的所述声学特征对所述基础模型进行更新,以得到所述类型识别模型。
6.根据权利要求1所述的方法,还包括:
从所述训练语音数据中确定第一部分训练语音数据以及第二部分训练语音数据,其中所述第二部分训练语音数据比所述第一部分训练语音数据在构建类型识别模型方面具有更高的准确度;
通过增加所述第二部分训练语音数据的数目来扩展所述训练语音数据;以及
利用经扩展的所述训练语音数据的所述声学特征来构建所述类型识别模型。
7.根据权利要求1所述的方法,还包括:
根据确定接收到唤醒指令,启动监听定时器以接收语音数据;以及
根据确定所述监听定时器超时,停止接收所述语音数据。
8.根据权利要求1所述的方法,其中所述类型识别模型为卷积长短期记忆深度神经网络CLDNN模型,所述CLDNN模型至少包括平均层,具有不同长度的数据流在经过所述平均层处理后具有相同长度。
9.根据权利要求1所述的方法,其中所述声学特征包括以下至少一项:滤波器组特征以及梅尔频率倒谱系数特征。
10.一种语音交互装置,包括:
特征提取模块,被配置为从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;
类型识别模块,被配置为将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及
交互执行模块,被配置为根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911168794.1/1.html,转载请声明来源钻瓜专利网。