[发明专利]长尾级联流行度预测模型、训练方法及预测方法有效

申请号：	202111169186.X	申请日：	2021-10-08
公开（公告）号：	CN113887806B	公开（公告）日：	2023-04-07
发明（设计）人：	周帆;余柳;代雨柔;钟婷	申请（专利权）人：	电子科技大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q50/00;G06N20/00
代理公司：	成都虹盛汇泉专利代理有限公司 51268	代理人：	王伟
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	长尾级联流行预测模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种长尾级联流行度预测模型，其特征在于包括骨干网络、以及位于骨干网络之后的回归器，所述回归器包括并行设置的原始回归器和子网络SUB；所述骨干网络和原始回归器构成长尾级联流行度预测模型的基线模型；

所述骨干网络用于提取长尾级联的时间特征和空间特征；

所述原始回归器用于依据骨干网络提取的时间特征和空间特征，得到该长尾级联流行度的原始预测值；

所述子网络SUB用于依据骨干网络提取的时间特征和空间特征，得到该长尾级联流行度的加权偏差；所述子网络SUB包括并行设置的第一分支子网络和第二分支子网络；第一分支子网络用于获取该条长尾级联在R个类别中的偏差b_r；第二分支子网络通过全连接层和softmax函数得到该条长尾级联在R个类别的偏差的概率p_r，则该条长尾级联流行度的加权偏差为

以该长尾级联流行度的原始预测值与加权偏差之和作为最终流行度预测值；

所述长尾级联流行度预测模型按照以下步骤训练得到：

S1数据预处理：统计每一条级联在观测时间内的转发路径，将每一条级联的历史转发过程用加权的有向无环图来表示，并划分出输入数据和流行度标签，得到训练集数据；经过预处理后的原始数据集为长尾分布，将其按照标签的大小降序排序，将训练集划分为R大类；以Weibo数据集和Twitter数据集作为原始数据集，对原始数据集按照以下分步骤进行预处理：

S11对原始数据集进行筛选；本步骤中过滤掉原始数据集在观测时间内转发量|C(t_s)|＜10的级联，对于|C(t_s)|＞100的级联，只会选择前100名的参与者；

S12对筛选出的每一条级联的历史转发过程用加权有向无环图来表示，得到训练集数据，并划分出输入数据和标签，标签即流行度；输入数据为X＝{x_i＝C_i(t_s)}，y_i＝P_i(t_p)，i∈{1，2，...，n}其中x_i表示级联观测时间内的转发，y_i表示x_i的标签(即流行度)，P_i(t_p)＝|C_i(t_p)|是级联C_i(t_p)的真实值，t_p为预测时间,n表示训练集总数量；