[发明专利]一种数据生成方法和装置在审
申请号: | 201910333272.6 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110110060A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 彭程;罗雪峰;王俊;王巍巍 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N3/04;G06N3/08 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成模型 数据单元 向量 语句 原始数据 方法和装置 目标数据 数据生成 数据量 关联 匹配效果 质量数据 输出 | ||
1.一种数据生成方法,其特征在于,包括:
将原始数据拆分为多个数据单元;
将所述多个数据单元作为第一生成模型的输入对所述第一生成模型训练,得到第二生成模型,其中,所述第一生成模型的输出为每一所述数据单元关联的第一语句向量和每一所述数据单元关联的第二语句向量,所述第一语句向量和第二语句向量用于调整所述第一生成模型;
将所述多个数据单元输入到所述第二生成模型,得到目标数据,所述目标数据的数据量大于所述原始数据的数据量。
2.如权利要求1所述的数据生成方法,其特征在于,所述将所述多个数据单元作为第一生成模型的输入对所述第一生成模型训练,得到第二生成模型,包括:
将所述多个数据单元中的第N个数据单元作为第一生成模型的输入,进行模型训练,获得所述第N个数据单元关联的第一语句向量和所述第N个数据单元关联的第二语句向量,其中,所述N为正整数;
当所述N小于预设值时,根据目标向量调整所述第一生成模型,并将所述多个数据单元中的第N+1个数据单元作为调整后的所述第一生成模型的输入,继续进行模型训练,直到N等于所述多个数据单元的数量,并将最后一次调整的所述第一生成模型作为第二生成模型,其中,所述目标向量为所述第N个数据单元关联的第一语句向量和所述第N个数据单元关联的第二语句向量中,与所述原始数据关联程度大于预设阈值的语句向量。
3.如权利要求2所述的数据生成方法,其特征在于,所述当所述N小于预设值时,按照目标向量调整所述第一生成模型,包括:
根据与所述原始数据的相关程度,对所述第N个数据单元关联的第一语句向量和所述第N个数据单元关联的第二语句向量评分,其中,评分随与所述原始数据的相关程度的提高而增加;
将评分不低于预设评分阈值的所述第一语句向量和所述第二语句向量作为目标向量,并根据所述目标向量调整所述第一生成模型的参数,以使第N+1个数据单元作为所述第一生成模型的输入时,生成所述目标向量的概率提高,其中,所述预设评分阈值高于所述原始数据对应的评分。
4.如权利要求2所述的数据生成方法,其特征在于,所述将所述多个数据单元中的第N个数据单元作为第一生成模型的输入,进行模型训练,获得所述第N个数据单元关联的第一语句向量和所述第N个数据单元关联的第二语句向量,包括:
利用长短期记忆网络LSTM结构生成所述第N个数据单元对应的第一语句向量;
利用蒙特卡罗算法生成所述第N个数据单元对应的第二语句向量。
5.如权利要求1至4中任一项所述的数据生成方法,其特征在于,所述将原始数据拆分为多个数据单元,包括:
将所述原始数据以字为单位拆分为多个数据单元。
6.一种数据生成装置,其特征在于,包括:
拆分模块,用于将原始数据拆分为多个数据单元;
训练模块,用于将所述多个数据单元作为第一生成模型的输入对所述第一生成模型训练,得到第二生成模型,其中,所述第一生成模型的输出为每一所述数据单元关联的第一语句向量和每一所述数据单元关联的第二语句向量,所述第一语句向量和第二语句向量用于调整所述第一生成模型;
数据生成模块,用于将所述多个数据单元输入到所述第二生成模型,得到目标数据,所述目标数据的数据量大于所述原始数据的数据量。
7.如权利要求6所述的数据生成装置,其特征在于,所述训练模块,包括:
生成子模块,用于将所述多个数据单元中的第N个数据单元作为第一生成模型的输入,进行模型训练,获得所述第N个数据单元关联的第一语句向量和所述第N个数据单元关联的第二语句向量,其中,所述N为正整数;
训练子模块,用于当所述N小于预设值时,根据目标向量调整所述第一生成模型,并将所述多个数据单元中的第N+1个数据单元作为调整后的所述第一生成模型的输入,继续进行模型训练,直到N等于所述多个数据单元的数量,并将最后一次调整的所述第一生成模型作为第二生成模型,其中,所述目标向量为所述第N个数据单元关联的第一语句向量和所述第N个数据单元关联的第二语句向量中,与所述原始数据关联程度大于预设阈值的语句向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910333272.6/1.html,转载请声明来源钻瓜专利网。