[发明专利]长尾级联流行度预测模型、训练方法及预测方法有效
申请号: | 202111169186.X | 申请日: | 2021-10-08 |
公开(公告)号: | CN113887806B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 周帆;余柳;代雨柔;钟婷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/00;G06N20/00 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 长尾 级联 流行 预测 模型 训练 方法 | ||
1.一种长尾级联流行度预测模型,其特征在于包括骨干网络、以及位于骨干网络之后的回归器,所述回归器包括并行设置的原始回归器和子网络SUB;所述骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型;
所述骨干网络用于提取长尾级联的时间特征和空间特征;
所述原始回归器用于依据骨干网络提取的时间特征和空间特征,得到该长尾级联流行度的原始预测值;
所述子网络SUB用于依据骨干网络提取的时间特征和空间特征,得到该长尾级联流行度的加权偏差;所述子网络SUB包括并行设置的第一分支子网络和第二分支子网络;第一分支子网络用于获取该条长尾级联在R个类别中的偏差br;第二分支子网络通过全连接层和softmax函数得到该条长尾级联在R个类别的偏差的概率pr,则该条长尾级联流行度的加权偏差为
以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值;
所述长尾级联流行度预测模型按照以下步骤训练得到:
S1数据预处理:统计每一条级联在观测时间内的转发路径,将每一条级联的历史转发过程用加权的有向无环图来表示,并划分出输入数据和流行度标签,得到训练集数据;经过预处理后的原始数据集为长尾分布,将其按照标签的大小降序排序,将训练集划分为R大类;以Weibo数据集和Twitter数据集作为原始数据集,对原始数据集按照以下分步骤进行预处理:
S11对原始数据集进行筛选;本步骤中过滤掉原始数据集在观测时间内转发量|C(ts)|<10的级联,对于|C(ts)|>100的级联,只会选择前100名的参与者;
S12对筛选出的每一条级联的历史转发过程用加权有向无环图来表示,得到训练集数据,并划分出输入数据和标签,标签即流行度;输入数据为X={xi=Ci(ts)},yi=Pi(tp),i∈{1,2,...,n}其中xi表示级联观测时间内的转发,yi表示xi的标签(即流行度),Pi(tp)=|Ci(tp)|是级联Ci(tp)的真实值,tp为预测时间,n表示训练集总数量;
S13将训练集数据按照流行度划分为R大类;nj代表类别j训练样本的个数,R代表类别的个数,所以训练集的总数量
S2提取骨干网络的参数:基于步骤S1预处理后的R大类训练集,分别采用多种采样策略学习长尾级联流行度预测模型的骨干网络表示,从多种采样策略得到的结果中筛选出骨干网络的最优表示;
S3微调回归器:基于步骤S1预处理后的R大类训练集,分别采用多种微调方法对骨干网络固定后的长尾级联流行度预测模型进行微调,得到长尾级联流行度预测模型。
2.根据权利要求1所述长尾级联流行度预测模型,其特征在于步骤S2中,使用的采样策略包括实例平衡采样、类平衡采样、平方根采样和渐进平衡采样。
3.根据权利要求2所述长尾级联流行度预测模型,其特征在于,令pj为从类别j采样的概率,考虑则四种采样策略具体为:
(1)实例平衡采样策略(Instance-Balanced Sampling),训练集中的每个样本具有相等的被选择概率,即q=1:
nj表示当前类别的样本数量、nr表示不同类别的样本数量;
(2)类平衡采样策略(Class-Balanced Sampling),不同类别的样本具有相等的被选择概率,即q=0:
(3)平方根采样策略(Square-Root Sampling),作为实例平衡采样和类平衡采样之间的折衷策略,令q=1/2:
(4)渐进平衡采样策略(Progressively-Balanced Sampling):
其中,e是当前迭代次数,E是控制迭代总数的超参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111169186.X/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理