[发明专利]数据生成方法、装置、电子设备及存储介质在审
申请号: | 202010322839.2 | 申请日: | 2020-04-22 |
公开(公告)号: | CN111538810A | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 章乐 | 申请(专利权)人: | 斑马网络技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/253;G06F40/35;G06K9/62 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 虞浩;臧建明 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 生成 方法 装置 电子设备 存储 介质 | ||
1.一种数据生成方法,其特征在于,应用于指令型人机对话系统,所述方法包括:
根据第一语法规则以及数据结构化模型确定第二语法规则,以使预设解析器根据所述第二语法规则对语料日志进行解析,所得到的解析结果大于预设需求阈值,所述数据结构化模型用于表征所述语料日志中所包含的历史指令型语句;
根据所述第二语法规则以及所述历史指令型语句确定第三语法规则,所述第三语法规则包括:同一种功能所对应的历史指令型语句的数量与所述历史指令型语句总数量之间的比例;
根据所述预设解析器以及所述第三语法规则生成自然语料数据以及标签,以将所述自然语料数据以及所述标签用于预设训练模型训练所述对话系统,所述标签为同一种功能所对应的自然语料数据的归一化表达式。
2.根据权利要求1所述的数据生成方法,其特征在于,所述根据第一语法规则以及数据结构化模型确定第二语法规则之前,还包括:
获取语料日志,所述语料日志包括用户对所述对话系统所属设备下达的历史指令型语句,所述语料日志的数据量大于预设数据量阈值;
根据所述历史指令型语句以及预设分词算法确定所述数据结构化模型,所述数据结构化模型包括第一结构化模型以及第二结构化模型,所述第一结构化模型与对应的所述历史指令型语句为正向顺序,所述第二结构化模型与对应的所述历史指令型语句为逆向顺序。
3.根据权利要求1或2所述的数据生成方法,其特征在于,所述根据第一语法规则以及数据结构化模型确定第二语法规则,包括:
根据所述第一语法规则以及搭配结构确定所述第二语法规则,所述搭配结构包括所述第一搭配结构、所述第二搭配结构以及所述第三搭配结构中的至少一个;
其中,根据预设文字片段以及所述第一结构化模型确定第一结构化子模型,所述第一结构化子模型用于表征第一搭配结构,所述第一搭配结构所对应的文字为所述预设文字片段之后的文字;
根据所述预设文字片段以及所述第二结构化模型确定第二结构化子模型,所述第二结构化子模型用于表征第二搭配结构,所述第二搭配结构所对应的文字为所述预设文字片段之前的文字;
根据所述第一结构化模型以及所述第二结构化模型确定第三搭配结构,所述第三搭配结构对应的文字为所述预设文字片段中间的文字;
所述预设文字片段属于所述历史指令型语句。
4.根据权利要求3所述的数据生成方法,其特征在于,当所述预设解析器根据所述第二语法规则无法解析所述语料日志时,还包括:
将所述无法解析的语料日志确定为未解析语料日志;
根据所述未解析语料日志对所述第二语法规则进行扩充,以使得所述预设解析器根据扩充后的第二语法规则对所述未解析语料日志实现解析。
5.根据权利要求4所述的数据生成方法,其特征在于,所述根据所述预设解析器以及所述第三语法规则生成自然语料数据以及标签,包括:
对所述第三语法规则进行平均采样,以得到样本规则,所述样本规则用于表征均衡化的所述第三语法规则;
根据所述预设解析器以及所述样本规则生成所述自然语料数据以及所述标签。
6.根据权利要求2所述的数据生成方法,其特征在于,当所述语料日志的数据量不大于所述预设数据量阈值,所述数据生成方法,包括:
根据所述语料日志以及预设双向语义训练模型确定语义训练模型;
根据预设基础语料以及所述语义训练模型确定相似语料,所述相似语料与所述语料日志具有相同的所述搭配结构;
对所述相似语料进行人工校验得到校验语料,以将所述校验语料以及所述预设基础语料用于所述预设训练模型训练所述对话系统。
7.根据权利要求6所述的数据处理方法,其特征在于,所述语料日志的数据量不大于所述预设数据量阈值,包括:
所述语料日志的数据量大于零且小于所述预设数据量阈值;或
所述语料日志的数据量为零。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斑马网络技术有限公司,未经斑马网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010322839.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢琴自动演奏装置
- 下一篇:一种悬臂梁式MEMS磁传感器及其制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置