[发明专利]模型训练方法与设备、预测方法与设备、数据处理设备、介质在审
申请号: | 201910105724.5 | 申请日: | 2019-02-01 |
公开(公告)号: | CN109858625A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 石秋萍 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06Q30/02 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 历史特征 历史特征向量 神经网络模型 数据处理设备 原始数据信息 历史数据 模拟数据 模拟特征 模型训练 预测 变换处理 历史样本 模型生成 数据预测 特征变换 特征提取 网络模型 特征集 准确率 样本 学习 | ||
本发明公开了模型训练方法与设备、预测方法与设备、数据处理设备、介质。一种网络模型训练方法包括:获取历史样本的原始数据信息;对原始数据信息进行特征提取以得到历史特征,所述历史特征经过变换处理,得到历史特征向量;利用历史特征向量来生成模拟特征;将模拟特征与历史特征结合作为训练特征集,经过特征变换后来训练深度神经网络模型。通过利用真实的历史数据,经由深度学习模型生成模拟数据,解决了样本缺少的问题,并通过结合历史数据与模拟数据来训练深度神经网络模型以便对数据进行预测,能够有效提高数据预测的准确率。
技术领域
本发明涉及数据处理技术,尤其涉及模型训练方法与设备、预测方法与设备、数据处理设备、介质。
背景技术
当前,数据预测技术应用得越来越广泛。
但是,在历史样本过少的情况下,如何训练得到合适的深度神经网络模型,以便准确地进行数据预测,是一个亟待解决的技术问题。
例如,用于在电影上映前对电影票房进行预测的电影票房预测技术也逐渐开展,以便为视频类公司在电影版权的采买方面提供参考和支持,从而便于预估回报率,有效地控制投资的风险;另外,还可以为电影市场的营销和推广提供参考和支持,例如可以针对不同的票房规模进行不同方式的广告和营销,以便有效地控制成本;再者,预测的结果也可以辅助进行影业数据分析,例如可以用于挖掘可能热门的电影类型或风格等。
但是,由于每年上映的电影数量有限,剔除年代久远、没有参考价值的数据之后,可供参考的数据量很少,导致难以应用深度的、复杂的模型。
而且,由于电影上映前的信息具有很大的不确定性,甚至可能缺失,且电影票房受口碑等难以量化的因素的影响很大,所以现有的电影票房预测模型大多使用传统的结构简单的回归模型或树模型,如线性回归、GBDT等。而这些现有模型的学习能力差,使得预测准确性有待提高,导致预测的结果难以让人满意。
因此,如何能够在例如电影数据的样本过少的情况下,更准确地预测电影票房,是另一个亟需解决的技术问题。
发明内容
为了解决以上问题之一,本发明提供了一种模型训练方法与设备、预测方法与设备、数据处理设备、介质。
发明人认为,如何解决数据样本过少的问题,是数据预测技术的关键。因此,本发明考虑利用历史数据,通过特征生成模型来生成扩充的数据特征,并且利用历史数据和扩充的数据特征来训练复杂的深度神经网络(Deep Neural Networks,以下简称DNN)模型用于数据预测。
根据本发明的一个示例性实施例,提供一种电影票房预测方法,包括:数据获取步骤,获取历史样本的原始数据信息;特征提取变换步骤,对所述原始数据信息进行特征提取以得到历史特征,所述历史特征经过变换处理,得到历史特征向量;模拟特征生成步骤,利用所述历史特征向量来生成模拟特征;以及网络模型训练步骤,将所述模拟特征与所述历史特征结合作为训练样本的特征集,经过特征变换后来训练深度神经网络模型。
可选地,所述深度神经网络模型的历史样本包括历史电影、历史图像、历史文本数据、历史数字数据、和/或由前者中的至少两种任意混合的数据。
可选地,所述生成模型包括变分自编码器。
可选地,所述网络模型训练步骤包括:将所述训练样本的特征集之中的历史样本的特定数据作为目标值Y,所述训练样本的特征集之中的除特定数据之外的训练特征作为特征值X,对特征值X中的指定特征以及对所述目标值Y分别进行变换处理,然后经由所述深度神经网络模型,通过优化目标函数得到所述深度神经网络模型的所需参数,由此得到经过训练的深度神经网络。
可选地,所述历史样本包括历史电影,一个历史电影的原始数据信息包括该电影的票房数据、该电影的上映基础信息、该电影的与社交口碑相关的数据、与该电影有关的以前作品的相关数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910105724.5/2.html,转载请声明来源钻瓜专利网。