[发明专利]一种数据生成方法和装置在审

专利信息
申请号: 201910333272.6 申请日: 2019-04-24
公开(公告)号: CN110110060A 公开(公告)日: 2019-08-09
发明(设计)人: 彭程;罗雪峰;王俊;王巍巍 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06N3/04;G06N3/08
代理公司: 北京银龙知识产权代理有限公司 11243 代理人: 许静;黄灿
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 生成模型 数据单元 向量 语句 原始数据 方法和装置 目标数据 数据生成 数据量 关联 匹配效果 质量数据 输出
【说明书】:

发明提供一种数据生成方法和装置,该方法包括:将原始数据拆分为多个数据单元;将所述多个数据单元作为第一生成模型的输入对所述第一生成模型训练,得到第二生成模型,其中,所述第一生成模型的输出为每一所述数据单元关联的第一语句向量和每一所述数据单元关联的第二语句向量,所述第一语句向量和第二语句向量用于调整所述第一生成模型;将所述多个数据单元输入到所述第二生成模型,得到目标数据,所述目标数据的数据量大于所述原始数据的数据量。本发明实施例能够基于较少数量的原始数据生成较多的高质量数据,能够实现对于数据的扩充,有助于提高与问题的匹配效果。

技术领域

本发明涉及计算机技术领域,尤其涉及一种数据生成方法和装置。

背景技术

智能机器人被广泛用来解答用户提出的问题,以降低人工成本,例如智能客服、语音助手等。由于不同用户的表达习惯等差异,针对同一问题提问时,其具体表达方式可能有所不同,例如,询问时间的表达可能是“几点?”或“现在的时间?”等多种表达方式。

现有智能机器人通常预置一定量的数据,这些数据中包含了对同一问题的多种表达方式,在接收到用户输入时,根据用户输入与数据的匹配程度确定用于可能提出的问题,然后调用并显示相对应的回答。显然,该数据中高质量数据的数据量越多,则可能覆盖的表达方式就越多,与用户提出的问题的匹配程度也就越高。然而实际可能提供的数据量可能有限,影响与问题的匹配效果。

发明内容

本发明实施例提供一种数据生成方法和装置,以解决实际可能提供的数据量可能有限,影响与问题的匹配效果的问题。

为了解决上述技术问题,本发明是这样实现的:

第一方面,本发明实施例提供了一种数据生成方法,包括:

将原始数据拆分为多个数据单元;

将所述多个数据单元作为第一生成模型的输入对所述第一生成模型训练,得到第二生成模型,其中,所述第一生成模型的输出为每一所述数据单元关联的第一语句向量和每一所述数据单元关联的第二语句向量,所述第一语句向量和第二语句向量用于调整所述第一生成模型;

将所述多个数据单元输入到所述第二生成模型,得到目标数据,所述目标数据的数据量大于所述原始数据的数据量。

可选的,所述将所述多个数据单元作为第一生成模型的输入对所述第一生成模型训练,得到第二生成模型,包括:

将所述多个数据单元中的第N个数据单元作为第一生成模型的输入,进行模型训练,获得所述第N个数据单元关联的第一语句向量和所述第N个数据单元关联的第二语句向量,其中,所述N为正整数;

当所述N小于预设值时,根据目标向量调整所述第一生成模型,并将所述多个数据单元中的第N+1个数据单元作为调整后的所述第一生成模型的输入,继续进行模型训练,直到N等于所述多个数据单元的数量,并将最后一次调整的所述第一生成模型作为第二生成模型,其中,所述目标向量为所述第N个数据单元关联的第一语句向量和所述第N个数据单元关联的第二语句向量中,与所述原始数据关联程度大于预设阈值的语句向量。

可选的,所述当所述N小于预设值时,按照目标向量调整所述第一生成模型,包括:

根据与所述原始数据的相关程度,对所述第N个数据单元关联的第一语句向量和所述第N个数据单元关联的第二语句向量评分,其中,评分随与所述原始数据的相关程度的提高而增加;

将评分不低于预设评分阈值的所述第一语句向量和所述第二语句向量作为目标向量,并根据所述目标向量调整所述第一生成模型的参数,以使第N+1个数据单元作为所述第一生成模型的输入时,生成所述目标向量的概率提高,其中,所述预设评分阈值高于所述原始数据对应的评分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910333272.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top