[发明专利]产生式模型的训练方法、数据生成方法、装置、介质和设备有效
| 申请号: | 202010697904.X | 申请日: | 2020-07-20 |
| 公开(公告)号: | CN111598189B | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 陈键飞;朱军;田天 | 申请(专利权)人: | 北京瑞莱智慧科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06N3/04 |
| 代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 郭栋梁 |
| 地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 产生 模型 训练 方法 数据 生成 装置 介质 设备 | ||
本发明的实施方式提供了一种产生式模型的训练方法,所述产生式模型包括数据增广网络和概率变换网络,所述方法包括:通过所述数据增广网络基于训练数据和一随机数进行数据增广;计算增广得到的数据的概率密度;将所述训练数据和增广得到的数据拼接;通过所述概率变换网络基于拼接后的数据进行变换;获取变换后的拼接数据的概率密度;以使增广得到的数据的概率密度和变换得到的数据的概率密度之差最小为目标进行优化,以更新所述数据增广网络和概率变换网络的参数。此外,本发明的实施方式提供了一种数据生成方法。本发明的产生式模型的训练方法和数据生成方法,基于变分思想学习最优的数据增广网络和概率变换网络,能够提升模型的表达能力。
技术领域
本发明的实施方式涉及人工智能领域,更具体地,本发明的实施方式涉及一种产生式模型的训练方法、数据生成方法、装置、介质和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
数据增广是深度学习中常用的技巧之一,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力。目前数据增广的方式主要包括:水平/垂直翻转,旋转,缩放,裁剪,剪切,平移等。
产生式模型根据数据的分布进行建模,可以实现图像、文字、视频生成,艺术创作,语音合成等一系列数据生成任务。当前的产生式模型用于数据生成需要解决的主要问题是:模型的表达能力需要足够强,可以拟合足够复杂的分布,如图像分布;此外计算需要足够高效,如模型的概率密度可以精确求解而无需采用数值方法近似,可以从模型中并行采样大量样本等。
现有技术中,生成对抗网络、变分自编码器等模型无法精确计算概率密度,而需要采用核密度估计等数值手段近似,计算效率低;像素卷积神经网络模型无法高效并行采样,计算效率同样低下;而高效的正规化流模型需要满足可逆性限制,表达能力弱,生成效果差。
通过上述描述可见,已有的数据生成方法无法同时满足表达能力强和计算效率高的要求。
发明内容
在本上下文中,本发明的实施方式期望提供一种产生式模型的训练方法、数据生成方法、装置、介质和设备。
在本发明实施方式的第一方面中,提供了一种产生式模型的训练方法,所述产生式模型包括数据增广网络和概率变换网络,所述方法包括:
通过所述数据增广网络基于训练数据和一随机数进行数据增广;
计算增广得到的数据的概率密度;
将所述训练数据和增广得到的数据拼接;
通过所述概率变换网络基于拼接后的数据进行变换;
获取变换后的拼接数据的概率密度;
以使增广得到的数据的概率密度和变换得到的数据的概率密度之差最小为目标进行优化,以更新所述数据增广网络和概率变换网络的参数。
在本实施方式的一个实施例中,所述随机数根据预设条件生成。
在本实施方式的一个实施例中,所述预设条件至少包括待生成随机数的维度以及生成的随机数需服从的数据分布。
在本实施方式的一个实施例中,所述训练数据中包括多个训练样本。
在本实施方式的一个实施例中,所述数据增广网络包括至少一个可逆变换层,其中每一可逆变换层的正向变换的输入为所述训练数据和初始输入的随机数或前一可逆变换层输出的变换后的随机数,输出为变换后的随机数以及所述变换的雅克比矩阵的行列式的对数。
在本实施方式的一个实施例中,计算增广得到的数据的概率密度,包括:
计算初始输入的所述随机数在标准正态分布下的概率密度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京瑞莱智慧科技有限公司,未经北京瑞莱智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010697904.X/2.html,转载请声明来源钻瓜专利网。





